2017年03月_互联网极客

12月 08月 04月 03月 02月 01月

原创用Python实现机器学习算法---k近邻算法

k近邻分类算法，KNN算法（K-Nearest-Neighbour Classification),是一个概念极其简单，而分类效果又很优秀的分类算法它的核心思想就是，要确定样本属于哪个分类，就寻找所有样本中与该测试样本举例最近的前K个样本，然后看这K个样本大部分属于哪一类，那么就认为这个测试样本也属于哪一类。简单的说就是让最相似的K各样本投票决定。这里所说的距离，一般最常用的就是多维空间的

2017-03-20 15:52:40 637

原创 python三种网页抓取方法

通过前面介绍的几篇文章，知道了爬取一个网页很容易了，python爬虫高级功能那一篇，介绍了爬虫的几种反爬虫措施，这里主要介绍三种抓取其中数据的方法。首先是正则表达式，然后是流行的BeautifulSoup模块，最后是强大的lxml模块**1、正则表达式**如果对正则表达式不熟悉，或是需要一些提示时，可以查阅http://docs.python.org/2/howto/regex.html获得完整

2017-03-09 17:12:29 1996 2

原创为CSDN添加打赏功能

现在好多博客或者个人网站都已经开通了打赏功能，这是对博主写文章的回报，增强了博主写文章的积极性，研究了CSDN好久，想出了一种方法，现在分享给大家。 1、准备好自己的微信二维码，在自己的主页上选择我的相册，进入相册并上传二维码。 2、进入相册以后上传照片，添加标题 3、上传图片成功以后,进入相册,点击照片,右键选择在网页上打开,这样就获得了该照片的url,复制该url 4. 在个人博客

2017-03-08 17:20:49 1650

原创 python爬虫高级功能

上一篇文章中我们介绍了爬虫的实现，及爬虫爬取数据的功能，这里会遇到几个问题，比如网站中robots.txt文件，里面有禁止爬取的URL，还有爬虫是否支持代理功能，及有些网站对爬虫的风控措施，设计的爬虫下载限速功能。 1、解析robots.txt 首先，我们需要解析robots.txt文件，以避免下载禁止爬取的URL。适用Python自带的robotparser模块，就可以轻松的完成这项工

2017-03-08 16:31:58 4662

原创 Python爬虫爬数据

上一篇文章中，我们只实现了爬虫，爬取网站的源代码，但大多数情况下是我们需要爬取网站的感兴趣的内容。通过跟踪所有的连接方式，我们可以很容易地下载到整个网站的页面。但是，这种方法会下载大量我们并不需要的网页。例如，我们想要从一个在线论坛中抓取用户帐号的详情页，那么此时我们只需要下载帐号页，而不需要下载讨论帖的页面。下面将使用正则表达式来确定需要下载哪些页面。下面是这段代码的初始版本。impo

2017-03-08 14:52:36 1860

原创 python爬虫改进版

看过我上一篇文章的，都知道写一个爬虫是很容易的。可以参考我的文章：http://blog.csdn.net/jsqfengbao/article/details/56667070但现在网站各种各样，爬虫效率、及容错性等都需要改进。现在对上一个爬虫进行下改进。简单的下载网页的代码：import urllib2def download(url): return urllib2.urlop

2017-03-07 19:36:41 705

urlparse模块主要是把url拆分为6部分，并返回元组。并且可以把拆分后的部分再组成一个url。主要有函数有urljoin、urlsplit、urlunsplit、urlparse等。 urlparse.urlparse(urlstring[, scheme[, allow_fragments]])将urlstring解析成6个部分，它从urlstring中取得URL，并返回元组 (scheme

2017-03-07 14:46:14 387