![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python爬虫
等等,还有一个bug
欢迎参观我的博客:blog.ascrush.cn
展开
-
Python爬虫(十三)——Scrapy爬取豆瓣图书
文章目录Python爬虫(十三)——Scrapy爬取豆瓣图书步骤建立项目和Spider模板编写Spider编写Pipelines配置settings执行程序完整代码鸣谢Python爬虫(十三)——Scrapy爬取豆瓣图书这次我们爬取豆瓣图书的top250的目录后进入书籍界面爬取界面中的书籍标签。步骤建立项目和Spider模板使用以下命令scrapy startproject de...原创 2020-02-10 13:29:14 · 2340 阅读 · 2 评论 -
Python爬虫(十二)——Scrapy使用
文章目录Python爬虫(十二)——scrapy使用步骤创建一个scrapy工程在一个工程中创建一个Spider模板demo123.pyyield关键字的使用配置产生的spider爬虫运行爬虫,获取网页编写Item Pipeline设计的数据类型RequestResponseItem信息提取方法CSS SelectorPython爬虫(十二)——scrapy使用步骤创建一个scrapy工程...原创 2020-02-08 17:15:42 · 237 阅读 · 0 评论 -
Python爬虫(十一)——Scrapy爬虫框架简介
文章目录Python爬虫(十一)——Scrapy爬虫框架简介安装结构解析ENGINE 整个框架的核心DOWNLOADERSCHEDULER 调度模块Downloader MiddlewareSPIDERItem PIPELINESSpider MIDDLEWARErequests库与scrapy库的比较相同点不同点常用命令Python爬虫(十一)——Scrapy爬虫框架简介scrapy不是一个...原创 2020-02-07 16:49:09 · 223 阅读 · 0 评论 -
Python爬虫(十)——股票定向爬虫
文章目录Python爬虫(十)———股票定向爬虫候选网站选择程序的结构设计步骤方法getHTMLText(url, code='utf-8')getStockList(lst, stockUrl)getStockInfo(lst, stockUrl)完整代码Python爬虫(十)———股票定向爬虫目标:获取上交所和深交所的所有股票的名称和交易信息输出:保存到文件中技术路线:request...原创 2020-02-06 22:45:02 · 274 阅读 · 0 评论 -
Python爬虫(九)——京东比价定向爬虫
文章目录Python爬虫(九)——京东比价定向爬虫判断可行性查看链接查看robots协议程序的设计步骤方法def getHTMLText(url)parsePage(ilt, html)printGoodLists(ilt)完整代码Python爬虫(九)——京东比价定向爬虫目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。要求:淘宝的搜索接口 翻页的处理技术路线:requests-...原创 2020-02-06 22:42:07 · 2339 阅读 · 0 评论 -
Python爬虫(八)——正则表达式
文章目录Python爬虫(八)——正则表达式概念作用使用语法常用操作符使用主要功能函数.search(pattern,string,flags=0).match(pattern,string,flags=0).findall(pattern,string,flags=0).split(pattern,sting,maxsplit=0,flags=0).finditer(pattern,string...原创 2020-02-06 22:38:11 · 139 阅读 · 0 评论 -
Python爬虫(七)——中国大学排名爬虫
文章目录Python爬虫(七)——中国大学排名定向爬虫确定爬虫是否可行设计程序的结构步骤实现方法模块的引入get_HTML_text()fill_univ_list()print_univ_list()全部代码Python爬虫(七)——中国大学排名定向爬虫我们将使用上海交大开发的软科排名。网站:http://www.zuihaodaxue.com/BCSR/ruanjiangongchen...原创 2020-02-03 21:30:48 · 1698 阅读 · 0 评论 -
Python爬虫(六)——信息组织和提取
文章目录Python爬虫(六)——信息组织和提取信息的标记信息标记的种类[XML](https://www.w3school.com.cn/xml/index.asp "w3school XML")[JSON](https://www.w3school.com.cn/json/index.asp "w3school JSON")[YAML](https://yaml.org/ "official ...原创 2020-02-03 16:57:04 · 274 阅读 · 0 评论 -
Python爬虫(五)——Beautiful Soup库
Python爬虫(五)——Beautiful Soup库安装步骤打开命令提示符输入pip install beautifulsoup4测试测试界面:http://python123.io/ws/demo.html首先查看网页源代码(打开页面CTRL+U)然后打开IDLE,输入以下代码:import requestsr = requests.get("http:...原创 2020-02-02 22:08:29 · 238 阅读 · 0 评论 -
Python爬虫(四)——五个基础爬虫实例
Python爬虫(四)——五个基础爬虫实例爬取京东商城商品代码:import requestsurl = "https://item.jd.com/100009996740.html"try: r = requests.get(url) r.raise_for_status() #不返回200产生异常 r.encoding = r.aparent_encodin...原创 2020-02-02 10:40:37 · 408 阅读 · 0 评论 -
Python爬虫(三)——Robots协议
Python爬虫(三)——Robots协议Robots协议全称为Robots Exclusion Standard,网络爬虫排除标准。它的作用是告知网络爬虫哪些可以抓取哪些不可以。通常被放在网站根目录下的robots.txt。注:并不是所有网站都有Robots协议,如果没有默认为内容都可以爬取。基本语法#*代表所有,/代表根目录User-agent:*Disallow:/User...原创 2020-02-02 09:36:33 · 521 阅读 · 0 评论 -
Python爬虫(二)——requests库
requests库公认的爬取网页最好的库安装方法用cmd打开控制台,输入pip install requests测试抓取百度的网页代码。打开IDLE输入一下代码import requestsr = requests.get("http://www.baidu.com")r.status_coder.encoding = "UTF-8"t.text状态码为200即为成...原创 2020-01-31 21:39:03 · 337 阅读 · 0 评论 -
Python爬虫(一)——开发环境
python爬虫(一)——开发环境python爬虫(一)——开发环境IDLEIDLE是Python的集成开发环境,被打包为Python包装的可选部分。它是一个入门级的代码编写工具,适合编写较短的程序。Sublime TextSublime Text是一个专门为程序员开发的文本编辑器。它是一个收费软件,但是可以无限期的试用。Sublime Text 支持多种编程语言的语法高亮、拥有优秀的代...原创 2020-01-31 21:33:14 · 660 阅读 · 0 评论