Python爬虫
文章平均质量分 72
JessePinkmen
这个作者很懒,什么都没留下…
展开
-
python爬虫介绍1
主要内容 http简介 html/xml/jason简介 mysql/apache 爬虫框架 robots规范与爬虫原则 python做爬虫特点 上手容易!!! 免费开源,使用不受限制。 解释执行,跨平台不受限制。 面向对象 框架和库支持丰富,有大量的历史积累。 http简介 HTTP = HyperText Transfer Protocol URI = Un...原创 2018-09-17 09:12:36 · 203 阅读 · 0 评论 -
python爬虫介绍2
自动抓取互联网上有用信息的程序就是爬虫 什么是爬虫 调度器:调度url管理器,下载器,解析器的协调工作 url管理器:包括待爬取和已爬取的url地址,防止重复爬取,和循环爬取 网页下载器:传入一个url地址来下载网页,将网页转换成一个字符串,网页下载器有urlib2,包括需要登录、代理、和cookie,requests(第三方包) 网页解析器:将网页字符串解析,提取有...原创 2018-09-17 10:02:15 · 156 阅读 · 0 评论 -
python3.7 scrapy crawl name 报错
由于目前python最新版是3.7,之前电脑装了3.6,后面由于pip3 install module时报错,就更新到了3.7,使用scrapy爬取数据时,在运行时报错,异常内容为: from twisted.conch import manhole, telnet File “/Library/Frameworks/Python.framework/Versions/3.7/lib/py...转载 2018-09-17 14:40:16 · 416 阅读 · 0 评论 -
Scrapy Python爬虫入门
创建项目 scrapy start project projectname 目录格式 tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__....原创 2018-09-18 10:43:43 · 177 阅读 · 0 评论