读书笔记
甜果果2333
这个作者很懒,什么都没留下…
展开
-
《PYTHON3网络爬虫开发实践》——第二章 爬虫基础
第二章 爬虫基础URI:Uniform Resource Identifier,即统一资源标志符。URL:Uniform Resource Locator,即统一资源定位符。URN:Uniform Resource Name,即统一资源名称。超文本:网页的源代码HTML就可以称作超文本。F12检查查看。协议类型:http, https, ftp, sftp, smb等。h...原创 2019-02-28 14:58:47 · 244 阅读 · 0 评论 -
第二章 K-近邻算法(机器学习实战)
第二章 K-近邻算法一个简单的直观的K-近邻法分类算法的理解电影题材分类: 基于电影中出现的亲吻、打斗出现的次数,使用k-近邻算法自动划分电影的题材类型。K-近邻法概述k-近邻算法采用测量不同特征值之间的距离方法进行分类。工作原理:存在一个样本数据集合,样本集中每个数据都存在标签,输入没有标签的新数据后,将新数据的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集...原创 2019-03-19 20:46:10 · 654 阅读 · 1 评论 -
第二章 使用Python进行DIY(附Python神经网络编程.pdf)
Python神经网络编程.pdf链接: https://pan.baidu.com/s/1mZTCas8GVjLdSyNehFAHkg 提取码: que5第二章 使用Python进行DIYnumpy模块创建3乘以2的数组import numpya = numpy.zeros([3,2])print(a)[[0. 0.] [0. 0.] [0. 0.]]使用matpl...原创 2019-03-14 09:21:52 · 9615 阅读 · 7 评论 -
第一章 神经网络如何工作(附Python神经网络编程.pdf)
Python神经网络编程.pdf链接: https://pan.baidu.com/s/1RkNfeNgT3Qtt_sEqRhw5Bg 提取码: 98ma第一章 神经网络如何工作神经网络的思考模式,误差值的形象比喻直线y = ax+ b即是最最简单的分类器!误差值如何调整误差△A?每一次调整误差,训练出来的结果是这样的↓不足之处在于,最终改进的直线只...原创 2019-03-14 09:19:02 · 6706 阅读 · 1 评论 -
《统计学习方法》——第6章 逻辑斯蒂回归与最大熵模型
第六章逻辑斯蒂回归与最大熵模型逻辑斯蒂回归是统计学习中的经典分类方法。最大熵是概率模型学习的一个准则,将其推广到分类问题得到最大熵模型。逻辑斯蒂回归模型与最大熵模型都属于对数线性模型。6.1 逻辑斯蒂回归模型6.1.1 逻辑斯蒂分布x服从逻辑斯蒂分布是指满足以下分布函数和密度函数6.1.2 二项逻辑斯蒂回归模型是一种分类模型,由条件概率分布P(Y|X)表示。...原创 2019-02-26 11:36:08 · 378 阅读 · 0 评论 -
《统计学习方法》——第5章 决策树
第五章 决策树决策树是一种基本的分类与回归方法。可以认为是if-then规则的集合,也可以认为是定义在特征空间与类空间上的条件概率分布。主要优点:模型具有可读性,分类速度快。学习时,利用训练数据,根据损失函数最小化的原则建立决策树模型。预测时,对新的数据,利用决策树模型进行分类。决策树的3个步骤:特征选择、决策树的生成和决策树的修剪。5.1 决策树模型与学习5.1...原创 2019-02-26 11:34:26 · 347 阅读 · 0 评论 -
《PYTHON3网络爬虫开发实践》——第六章 Ajax数据爬取
第六章 Ajax数据爬取有时候我们在用requests抓取页面的时候,得到的结果可能和在浏览器中看到的不一样:这是因为requests 获取的都是原始的HTML文档,而浏览器中的页面则是经过JavaScript处理数据后生成的结果,这些数据的来源有多种,可能是通过Ajax加载的,可能是包含在HTML文档中的,也可能是经过JavaScript和特定算法计算后生成的。对于第一种情况,数据加载是...原创 2019-02-28 15:07:32 · 382 阅读 · 0 评论 -
《PYTHON3网络爬虫开发实践》——第五章 数据存储
第五章 数据存储用解析器解析出数据之后,接下来就是存储数据了。保存的形式可以多种多样,最简单的形式是直接保存为文本文件,如TXT、JSON、CSV等。另外,还可以保存到数据库中,如关系型数据库MySQL,非关系型数据库MongoDB、Redis 等。爬虫——TXT文本存储import requestsfrom pyquery import PyQuery as pqurl = ...原创 2019-02-28 15:06:28 · 321 阅读 · 0 评论 -
《PYTHON3网络爬虫开发实践》——第四章 解析库的使用
第四章 解析库的使用4.1 XPath对于网页的节点来说,它可以定义id、 class或其他属性。而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一一个或多个节点。那么,在页面解析时,利用XPath或CSS选择器来提取某个节点,然后再调用相应方法获取它的正文内容或者属性,就可以提取我们想要的任意信息了。XPath提供了超过100个内建函数,用于字符串、数值、时...原创 2019-02-28 15:04:16 · 476 阅读 · 0 评论 -
《PYTHON3网络爬虫开发实践》——第三章 基本库的使用
第三章 基本库的使用urllib库,有了它,我们只需要关心请求的链接是什么,需要传的参数是什么,以及如何设置可选的请求头就好了,不用深入到底层去了解它到底是怎样传输和通信的。有了它,两行代码就可以完成一个请求和响应的处理过程,得到网页内容。urllib是Python内置的HTTP请求库。包含4个模块。requesturlopen()。利用它模仿浏览器的一个请求发起过程,还带有处...原创 2019-02-28 15:01:38 · 698 阅读 · 0 评论