python -- 爬虫
文章平均质量分 62
TheSnowBoy_2
知乎:https://www.zhihu.com/people/wang-kang-84-84/activities
展开
-
学习Scrapy入门
Scrapy介绍 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 所谓网络爬虫,就是一个在网上到处或定向抓取数据的程序,当然,这种说法不够专业,更专业的描述就是,抓取特定网站网页的HTML数据。抓取网页的一般方法是,定义一个入口页面,然后一般一个页面会有其他页面的URL,于是从当前页面获取到这些URL加入到转载 2016-11-24 22:21:29 · 764 阅读 · 0 评论 -
python爬虫 -- 安装Scrapy开发环境
原文地址 强烈建议在Linux环境下进行开发,Windows环境会出现许多莫名其妙的问题 CentOS7安装Scrapy 首先安装libxml依赖libxml2,libxml2主要提供解析xpath的组件: yum install libxml2 libxml2-devel 然后安装scrapy: pip install scrapy 执行如下: (scrapy_venv)转载 2016-11-19 22:33:25 · 1280 阅读 · 0 评论 -
解析 HTML -- SGMLParser
[python] view plain copy #coding:utf-8 from sgmllib import SGMLParser class GetIdList(SGMLParser): def reset(self): self.IDlist=[] self.flag=False self.ge转载 2017-01-13 20:18:59 · 785 阅读 · 0 评论 -
爬虫文章索引
入门如何入门爬虫? 【知乎,全面】零基础如何学爬虫技术?实战[Python爬虫] Selenium爬取新浪微博移动端热点话题及评论 (下) 细节【知乎】爬虫怎么解决封IP?爬虫配置python selenium环境配置Firefox和Chrome 【驱动】firefox驱动下载地址(方便在程序中操作firefox) 【代理】python selenium Frefox使 用代理访问网页 【原创 2017-02-19 09:43:47 · 1153 阅读 · 0 评论 -
python 爬虫细节
python selenium错误问题1【异常】selenium.common.exceptions.WebDriverException: Message: {“errorMessage”:“‘undefined’ is not an object【解决办法】 设置用户代理设置导致了这个问题,可能是phantomjs不支持相应的代理。 错误代码: dcap = dict(DesiredC原创 2017-03-24 22:34:09 · 1047 阅读 · 0 评论