自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 MOOC网站日志分析

网站日志什么是网站日志日志:网络设备、系统及服务程序等,在运作时会产生的一个叫log的事件记录。它记载着日期、时间、使用者及动作等相关操作描述网站日志:网站在运行过程中产生的日志,包括系统日志和程序日志。系统日志:一般时网站所基于的服务器容器锁自动生成的日志,如访问日志,系统错误日志等等 程序日志:由用户在程序中自定义构建网站日志分析的重要性 网站日志本身没有太...

2019-03-06 17:07:04 436

原创 KNN最近邻算法

KNN(K-Nearest Neighbor)原理数据映射到高位空间中的点 找出k个最近的样本 投票结果问题如何把数据映射到高维空间上的点:最简单的一 一映射,这时有多少属性,就有几维空间,然后根据每条数据找到空间中的电 如何找到k个最近的样本:距离和相似度这两个技术指标如何衡量距离数学中距离满足三个要求:距离必须是正数、距离必须满足对称性、满足三角不等式。如何定义字...

2019-03-03 23:06:30 328

原创 手写线性回归

线性回归问题 案例:根据工资、年龄来预估贷款额 假设额度服从工资和年龄的线性分布 最终加上误差,得到最后的模型公式: 现在把误差项解出,然后对它进行展开、处理如下: 然后求解极大似然估计,整理得到J 最大似然函数的求解等价于最小化J,解出...

2019-03-03 22:20:46 246

原创 正则表达式通用的基本用法

正则表达式用来保证数字规范,它是数据表达式的一种规则,多种语言通用 可以用来查找对应规则下的数据 可以用来判断用户提供数据是否规范如何使用正则表达式匹配数据import reresult = re.match(正则表达式,要匹配的字符串)# 如果上一步匹配的话,可用group提取result.group()小demo感受下正则表达式能做什么import rer...

2019-02-25 13:48:26 466

原创 并发图片下载器模拟实现(小开心)

首先爬取百度页面信息import urllib.requestreq = urllib.request.urlopen("http://www.baidu.com") 爬取一个页面的信息import urllib.requestdef main(): req = urllib.request.urlopen("") img_content = req.rea...

2019-02-25 10:21:42 234

原创 生成器

列表推导式nums = [x*2 for in range(10)]生成器nums = (x*2 for in range(10))比较生成器和列表的区别列表占用内存,用来存储的是数据 生成器占用小内寸,用来存出生成数据的方式 生成器是一种特殊的迭代器 生成器方式实现斐波拉契数列def create_num(all_num): # 注意逗号...

2019-02-24 21:23:24 87

原创 迭代器

迭代器可迭代对象    数字类型不是一个可迭代对象from collection import Iterable# 判断是否为可迭代对象,返回True则可迭代isinstance([11,22,33],Iterable) 实现一个可迭代对象from collections import Iterableclass Classmate(object): def...

2019-02-24 16:23:45 70

原创 MaxCompute进行数据质量核查

MaxCompute进行数据质量核查数据质量的相关概念什么是数据质量?数据质量顾名思义是数据的质量数据质量是数据分析结论有效性和准确性的基础,也是最重要的前提和保障数据质量是数据分析应用的基础,为了获取可靠的数据,企业必须密切关注数据的质量,数据质量是直接影响系统应用成功的关键什么是数据质量管理?数据质量管理是指对数据从计划 获取 存储 维护 应用 消亡生命周期的每个阶段的各类...

2019-02-22 13:35:05 151

原创 机器学习SVM算法总结

第三章  机器学习SVM算法总结支持向量机简介支持向量机(SVM)是一种有监督学习算法,不仅可以用于分类问题,也可用于回归问题 支持向量机理论的优点:对于含有大量特征属性的小样本有很强的鲁棒性、对于简单和复杂的分类模型都有很强的学习能力、如果采用复杂的数学模型可以避免过拟合现象 SVM最主要的分类算法有C-SVC和v-SVC、最主要的回归算法有-SVR和v-SVRC-SVC算法 ...

2019-02-21 22:18:48 855

原创 进程

进程进程的概念通俗的讲,进程就是运行中的程序加上占用的资源称为进程,程序只有一个,但是进程可以有多个,它是操作系统分配资源的基本单位。进程的状态分为就绪、运行、等待(堵塞)、死亡。 就绪态:运行的条件已经过去,正在等待cpu执行 执行态: cpu正在执行其功能 等待态:等待某些条件,例如休眠状态 进程的实现from multiprocessing import Process...

2019-02-20 20:52:44 80

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除