![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据爬取
nwj_03
码农一枚,努力修炼中
展开
-
python爬虫爬取数据
目标:爬取猫眼top100电影的名称,主演,上映时间 1.观察所要爬取的内容的页面[地址(https://maoyan.com/board/4?offset=0),并找到其规律,从中观察到其URL中只有offset=?在变动 2.按F12观察页面中的名称,主演,上映时间的URL地址用正则进行匹配 3.创建主函数来定义爬取的页面,创建函数来获取页面,创建函数来分析页面,创建函数来保存解析的数据,并将...原创 2019-08-07 22:46:23 · 276 阅读 · 0 评论 -
JSON
一.什么是json JSON:JavaScript Object Notation JS O对象 N表示方式 按照JS对象的格式描述出来的字符串. 二.JSON表现 01.JSON 表示单个对象 1.使用{}表示单个对象 2.在{}使用key:value的形式来表示属性(数据) 3.key必须使用“”引起来 4.value如果是字符串的话,也必须使用“” 5....原创 2019-08-11 20:52:06 · 90 阅读 · 0 评论 -
scrapy框架设置多个User-Agent方法
1.在scrapy文件中创建一个py文件 示例如下user_agents.py user_agents = [ 'User-Agent,Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0', 'User-Agent,Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_...原创 2019-08-11 15:58:04 · 970 阅读 · 0 评论 -
Windows版本的python中安装PIL的方法(亲测有效)
python中PIL的安装方法: 电脑版本64位pillow的下载路径可参考:https://www.lfd.uci.edu/~gohlke/pythonlibs/#pillow 注意下载符合自己Python的pillow。 下载完成后,将文件放入C:\python36\Scripts(此为自己电脑的python存放地址), 进入终端,切换到你的Python里pip.exe所在的目录,比如我的就是...原创 2019-08-15 10:34:35 · 1412 阅读 · 0 评论 -
Python中urlencode()使用
urlencode() 传入参数类型:字典 功能:将存入的字典参数编码为URL查询字符串,即转换成以key1=value1&key2=value2的形式 导入:from urllib.parse import urlencode 例如: from urllib.parse import urlencode baseurl = 'http://image.so.com/zj?' param...原创 2019-08-15 10:22:06 · 734 阅读 · 0 评论 -
爬虫中常见的反反爬措施
python中反反爬措施小结: 1.使用用户代理(User-Agent) User-Agent即用户代理,它使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本等信息。对于一些网站来说,它会检查我们发送的请求中所携带的UserAgent字段,如果非浏览器,就会被识别为爬虫,一旦被识别出来, 我们的爬虫也就无法正常爬取数据了。常用的用户代理可以百度用户代理大全 2.使用代理可变IP...原创 2019-08-08 22:40:31 · 994 阅读 · 0 评论 -
正则表达式匹配中贪婪模式和非贪婪模式
贪婪模式::正则表达式一般趋向于最大长度匹配,总是尝试匹配尽可能多的字符,也就是所谓的贪婪匹配。贪婪模式,就是在整个表达式匹配成功的前提下,尽可能多的匹配。量词包括: {m, n} {m, } ? * + 非贪婪模式:非贪婪匹配就是匹配到结果就好,总是尝试匹配尽可能少的字符。从应用角度分析,非贪婪模式,就是在整个表达式匹配成功的前提下,尽可能少的匹配。 {m, n}? {m, }? ?? *? +...原创 2019-08-13 16:47:52 · 224 阅读 · 0 评论 -
python面试题01
1.python 爬虫有哪些常用技术? Scrapy,Beautiful Soup, urllib,urllib2,requests 2.简单说一下你对 scrapy 的了解? scrapy 是一个快速(fast)、高层次(high-level)的基于 python 的 web 爬虫构架。 用来下载、并解析 web 页面, 其 parse->yield item->pipeline 流...原创 2019-08-07 23:47:07 · 169 阅读 · 0 评论 -
scrapy框架爬虫xpath的extract()和extract_first()之区别
使用scrapy爬虫时,我们会使用xpath来获取html标签,通常有两种数据提取的方法,分别是: extract():返回的是一个数组list,里面包含了多个string,若只有一个string,则返回[‘ABC’]这中格式。 extract_first():返回的是一个string字符串,是list数组里面的第一个字符串 ...原创 2019-08-12 23:01:01 · 1099 阅读 · 0 评论