- 博客(7)
- 资源 (9)
- 收藏
- 关注
原创 用Python实现机器学习算法---k近邻算法
k近邻分类算法,KNN算法(K-Nearest-Neighbour Classification),是一个概念极其简单,而分类效果又很优秀的分类算法它的核心思想就是,要确定样本属于哪个分类,就寻找所有样本中与该测试样本举例最近的前K个样本,然后看这K个样本大部分属于哪一类,那么就认为这个测试样本也属于哪一类。简单的说就是让最相似的K各样本投票决定。这里所说的距离,一般最常用的就是多维空间的
2017-03-20 15:52:40 637
原创 python三种网页抓取方法
通过前面介绍的几篇文章,知道了爬取一个网页很容易了,python爬虫高级功能那一篇,介绍了爬虫的几种反爬虫措施,这里主要介绍三种抓取其中数据的方法。首先是正则表达式,然后是流行的BeautifulSoup模块,最后是强大的lxml模块**1、正则表达式**如果对正则表达式不熟悉,或是需要一些提示时,可以查阅http://docs.python.org/2/howto/regex.html获得完整
2017-03-09 17:12:29 1996 2
原创 为CSDN添加打赏功能
现在好多博客或者个人网站都已经开通了打赏功能,这是对博主写文章的回报,增强了博主写文章的积极性,研究了CSDN好久,想出了一种方法,现在分享给大家。 1、准备好自己的微信二维码,在自己的主页上选择我的相册,进入相册并上传二维码。 2、进入相册以后上传照片,添加标题 3、上传图片成功以后,进入相册,点击照片,右键选择在网页上打开,这样就获得了该照片的url,复制该url 4. 在个人博客
2017-03-08 17:20:49 1650
原创 python爬虫高级功能
上一篇文章中我们介绍了爬虫的实现,及爬虫爬取数据的功能,这里会遇到几个问题,比如网站中robots.txt文件,里面有禁止爬取的URL,还有爬虫是否支持代理功能,及有些网站对爬虫的风控措施,设计的爬虫下载限速功能。 1、解析robots.txt 首先,我们需要解析robots.txt文件,以避免下载禁止爬取的URL。适用Python自带的robotparser模块,就可以轻松的完成这项工
2017-03-08 16:31:58 4662
原创 Python爬虫爬数据
上一篇文章中,我们只实现了爬虫,爬取网站的源代码,但大多数情况下是我们需要爬取网站的感兴趣的内容。 通过跟踪所有的连接方式,我们可以很容易地下载到整个网站的页面。但是,这种方法会下载大量我们并不需要的网页。例如,我们想要从一个在线论坛中抓取用户帐号的详情页,那么此时我们只需要下载帐号页,而不需要下载讨论帖的页面。下面将使用正则表达式来确定需要下载哪些页面。下面是这段代码的初始版本。impo
2017-03-08 14:52:36 1860
原创 python爬虫改进版
看过我上一篇文章的,都知道写一个爬虫是很容易的。可以参考我的文章:http://blog.csdn.net/jsqfengbao/article/details/56667070但现在网站各种各样,爬虫效率、及容错性等都需要改进。现在对上一个爬虫进行下改进。简单的下载网页的代码:import urllib2def download(url): return urllib2.urlop
2017-03-07 19:36:41 705
转载 urlparse相关知识
urlparse模块主要是把url拆分为6部分,并返回元组。并且可以把拆分后的部分再组成一个url。主要有函数有urljoin、urlsplit、urlunsplit、urlparse等。 urlparse.urlparse(urlstring[, scheme[, allow_fragments]])将urlstring解析成6个部分,它从urlstring中取得URL,并返回元组 (scheme
2017-03-07 14:46:14 387
FilterPacket流量过滤程序
2016-11-30
android安全架构深究
2016-09-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人