走在分布式的路上-CSDN博客

原创机器学习之朴素贝叶斯算法

朴素贝叶斯算法概率基础联合概率定义：包含多个条件，且所有条件同时成立的概率。记作：P(A,B)P(A,B) = P(A)P(B)条件概率定义：就是事件A在另外一个事件B已经发生条件下的发生概率记作：P(A|B)P(A1,A2|B) = P(A1|B)P(A2|B)注意：此条件概率的成立，是由于A1,A2相互独立的结果朴素贝叶斯算法要求各个特征之间相互独立...

2019-09-15 11:57:58 165

原创转化器和估计器

转化器和估计器转化器fit():输入数据但不做事情，就是计算平均值，方差等等transform(): 通过fit产生的平均值和方差转换数据fit_transform() = fit() + transform()估计器在sklearn中，估计器(estimator)是一个重要角色，是一类实现了算法的API用于分类的估计器：sklearn.neighbors k-近邻...

2019-09-14 18:26:54 170

原创机器学习之特征预处理

特征预处理通过特定的统计方法(数学方法)将数据转化成算法要求的数据数值型数据标准缩放：1.归一化2.标准化3.缺失值类别型数据one-hot 编码关于one-hot编码：https://blog.csdn.net/weixin_43170863/article/details/100184168时间类型时间的切分sklearn特征处理APIsklear...

2019-09-09 16:21:46 444

原创文本特征提取之TFIDF

TF-IDF是一种加权技术。采用一种统计方法，根据字词在文本中出现的次数和在整个语料中出现的文档频率来计算一个字词在整个语料中的重要程度。主要思想：如果某个词或短语在一篇文章中出现的概率高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。作用：用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度优点：能过滤掉一些常见的却无关紧要的词语，同时...

2019-09-09 13:55:03 1113

原创机器学习之决策树

决策树认识决策树决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-then结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法信息的单位：比特bite信息熵和香农定理https://blog.csdn.net/dyx810601/article/details/82226456当得到一些信息时信息熵就减小了信息和消除不确定性是相联系的决策树中把能减少更多的...

2019-09-07 14:44:26 162

转载机器学习：数据预处理之独热编码（One-Hot）

数据预处理之独热编码(One-Hot）转载https://www.imooc.com/article/35900在机器学习算法中，我们经常会遇到分类特征，例如：人的性别有男女，祖国有中国，美国，法国等。这些特征值并不是连续的，而是离散的，无序的。通常我们需要对其进行特征数字化。那什么是特征数字化呢？例子如下：性别特征：[“男”，“女”]祖国特征：[“中国”，"美国，“法国”]运动特征...

2019-09-01 16:00:41 332

原创机器学习之k-近邻算法

k-近邻算法(KNN)定义：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别。来源：KNN算法最早由Cover和Hart提出的一种分类算法。计算距离公式两个样本的距离可以通过如下公式计算，又称为欧式距离，比如说，a(a1,a2,a3),b(b1,b2,b3)k-近邻算法需要标准化sklearn k-近邻算法API...

2019-09-01 15:47:56 210

原创机器学习算法分类

机器学习算法分类监督学习(特征值+目标值)输入数据有特征有标签，即有标准答案分类k-近邻算法、贝叶斯分类、决策树与随机森林、逻辑回归、神经网络回归线性回归岭回归标注隐马尔可夫模型无监督学习(特征值)输入数据有特征无标签，即无标准答案聚类k-means数据要么是离散型要么是连续型分类处理目标值是离散型数据概念：是监督学习的一...

2019-09-01 01:27:02 151

原创爬虫一般步骤

实现爬虫的套路准备url准备start_urlurl地址规律不明显，总数不确定通过代码提取下一页的urlxpath提取寻找url地址，部分参数在当前的响应中(比如当前页码数和总的页码数在当前的响应中)准备url_list页码总数明确url地址规律明显发送请求，获取响应添加随机的User-Agent,反反爬虫添加随机的代理ip在对方判断出是爬...

2019-08-31 14:57:08 560

原创爬虫(三)——数据提取(3)之XPath

数据提取(3)XPath的使用XPath和XLML类库lxml是一款高性能的python HTML/XML解释器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息。XPath(XML Path Language)定义：是一门在HTML/XML文档中查找信息的语言，可以用来在HTML/XML文档中对元素和属性进行遍历。学习文档：https://www.w3school.com...

2019-08-28 21:00:59 559

原创爬虫(三)——数据提取(2)

数据提取(2)正则表达式定义：就是用事先定义好的一些特定字符、以及这些特定字符的组合，组成一个“规则字符串”，这个"规则字符串"用来表达对字符串的一种过滤逻辑。常用正则表达式的方法：re.compile(编译)pattern.match(从头找一个)pattern.search(找一个)pattern.findall(找所有)pattern.sub(替换)正则表达式中字符...

2019-08-28 18:52:56 126

原创爬虫(三)——数据提取(1)

数据提取数据提取概念：从响应中获取我们想要的数据的过程数据分类非结构化的数据：html等处理方法：正则表达式、xpath结构化数据：json、xml等处理方法：转化为python数据类型数据提取之json由于把json数据转化为python内建数据类型很简单，所以爬虫中，如果我们能够找到返回json的URL，就会尽量使用这种URL。JSON的概念：是一种轻...

2019-08-27 21:33:59 811

原创爬虫(二)

爬虫(二)Requests深入1.发送POST请求哪些地方需要发送POST请求：登陆注册 (POST比GET更安全)需要传输大文本内容的时候(POST请求对数据长度没有要求)用法：response = requests.post(“http://www.baidu.com/”,data = data,headers=headers)data的形式：字典...

2019-08-26 20:57:31 430

转载为什么说扁平胜于嵌套

为什么说扁平胜于嵌套这句话出自《python之禅》转载文章https://blog.csdn.net/gzlaiyonghao/article/details/2151918

2019-08-21 22:34:57 759

原创爬虫(一）

爬虫学习(一)一.爬虫的概念模拟客户端(浏览器)发送网络请求，接收请求响应，一种按照一定的规则，自动的抓取互联网信息的程序。二.爬虫的流程url–>发送请求，获取响应–>提取数据–>入库发送请求，获取响应–>提取url三.ROBOTS协议网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不可以抓取。例如：https://www.taob...

2019-08-21 19:14:42 193

weixin_43170863的博客