Python
文章平均质量分 51
幸运的铁匠
专注打铁~
展开
-
Python抓取搜索引擎联想词
众所周知Python可以用来写爬虫抓取数据。而这个例子是我学习写的第一个简单的爬虫--抓取360搜索引擎搜索时的联想词集合。我们在使用搜索引擎搜索东西时,当我们输入一个词之后搜索框下方会出现一系列联想词如图所示。 我们想利用Python代码把这些联想词抓取出来,首先我们在火狐浏览器中,查看该页面的原始html文档,在搜索引擎中输入要查询的关键词如:NBA,我们可以看到Request原创 2016-04-17 11:35:32 · 5710 阅读 · 0 评论 -
Python 模块导入时名称冲突引起的错误
最近在Ubuntu15.10环境下写Python时遇到一个问题:在程序在控制台运行时一切正常,但是一但使用python+文件名运行或者在sublime text 3下ctrl+b运行时会出现错误如下图所示:控制台写代码直接运行用.py文件运行可以看到错误信息中提到了from collections import namedtuple 但是代码中根本就没有用到co原创 2016-03-21 21:39:00 · 7711 阅读 · 1 评论 -
Python结合BeautifulSoup抓取知乎数据
本文主要介绍利用Python登录知乎账号,抓取其中的用户名、用户头像、知乎的问题、问题来源、被赞数目、以及回答者。其中数据是配合Beautiful Soup进行解析的。首先,要解决的是知乎登录问题。在程序中登录知乎我们直接提供用户名和密码是无法进行登录的,这里我们采用一个比较笨拙的办法直接在发送请求过程中附带上cookies。这个cookies值我们可以通过在火狐浏览器登录知乎时用firebug直原创 2016-04-21 19:25:22 · 13743 阅读 · 0 评论 -
Python scrapy学习入门
Scrapy 是使用Python编写的一个用来爬取网站数据,提取结构性数据的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。如果不熟悉可以在以下网站学习其基础知识。http://scrapy-chs.readthedocs.org/zh_CN/latest/intro/overview.html 使用Scrapy编写爬虫能大大提高工作效率。在安装好Scrapy之后原创 2016-04-22 10:00:33 · 6079 阅读 · 1 评论 -
Python Scrapy 学习----自动爬取网页
使用scrapy框架写爬虫时一般会在start_urls中指定我们需要爬虫去抓取的网页的url,但是如何让我们的爬虫像搜索引擎中使用的爬虫一样具备自动多网页爬取的功能呢?本文通过自动抓取个人csdn博客的所有文章标题、阅读人数、创建时间来进行一个简单的说明。文中使用了两种不同的方法来实现。 首先我们来分析cdsn中博客中文章的url,如图所示可以发现不同的文章页面的url只有url末尾对应的一原创 2016-04-24 17:41:43 · 7155 阅读 · 0 评论