python爬虫
志yu
慕尼黑工大机器人硕士 方向机器视觉
展开
-
scrapy crawl spider执行报错(windows)
1.SyntaxError: invalid syntax调用的addoutput里面的也要将async参数更改为shark,因为下面的if判断,源码里面都是用的shark,又不是async,识别不了async def write(self, data, shark=False): self.handler.addOutput(data, shark) ...原创 2018-09-08 14:57:50 · 491 阅读 · 0 评论 -
python scrapy框架爬取豆瓣top250电影篇一Windows下建立Scrapy项目,pycharm编辑
1、打开cmd,进入到项目准备所放在的文件夹,执行命令:scrapy startproject douban然后就可以使用pycharm打开项目了 2、建立spider文件 cmd命令行进入到项目的spiders文件夹,执行: scrapy genspider douban_spider urlscrapy genspider douban_spider movie.do...原创 2018-09-09 14:19:44 · 742 阅读 · 0 评论 -
python scrapy框架爬取豆瓣top250电影篇一scrapy原理介绍
ScrapyScrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。 其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。...原创 2018-09-09 13:47:09 · 869 阅读 · 0 评论 -
python scrapy框架爬取豆瓣top250电影篇一明确目标&&爬虫编写
1.明确目标1.1在url上找到要爬取的信息 1.2.确定了信息,编写items文件class DoubanItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() serial_number = s...原创 2018-09-09 15:25:21 · 913 阅读 · 0 评论 -
python scrapy框架爬取豆瓣top250电影篇一存储数据到mongogdb | mysql中
存到mongodb中环境windows7mongodb4.0mongodb安装教程 设置具体参数 在管道里面写具体参数 打开settings 设置参数 测试开始–结果 代码import pymongofrom douban.settings import mongo_host,mongo_port,mongo_db_name,mongo...原创 2018-09-09 16:12:10 · 785 阅读 · 0 评论 -
python scrapy框架爬取豆瓣top250电影篇一代理编写
爬虫伪装:UA中间件编写 settings设置 from scrapy import signalsimport base64import randomclass my_useragent(object): def process_request(self,request,spider): USER_AGENT_LIST = [ ...原创 2018-09-09 16:21:00 · 532 阅读 · 0 评论 -
python 爬虫 --字符编写问题
python爬虫后出现字符串问题测试用例:[root@izwz9eitqs320brxl6owssz ~]# pythonPython 2.7.5 (default, Nov 6 2016, 00:28:07) [GCC 4.8.5 20150623 (Red Hat 4.8.5-11)] on linux2Type "help", "copyright", "c原创 2018-09-06 14:17:16 · 167 阅读 · 0 评论 -
正则表达式-py爬虫篇
re.match re.match试着从字符串的起始位置匹配一个模式, 若不能从起始位置匹配成功,match()就返回none.常见匹配import recontent = 'Hello 123 4567 World_This Demo'res = re.match('^Hello\s\d\d\d\s\d{4}\s\w{10}\sDemo$', cont...转载 2018-09-06 14:45:53 · 205 阅读 · 0 评论 -
python爬取douban读书
通过两天的速成学习,自己写了py的代码来爬豆瓣。 要注意的还是很多的cookie User-Agent 还有字符串编辑问题- (使用的是pycharm 记得设置字符格式为UTF8)# -*- coding: UTF-8 -*-import threadingimport pymongoimport requestsimport reimport randomimport tim...原创 2018-09-07 13:54:46 · 249 阅读 · 0 评论