爬虫
Lin_junhan
这个作者很懒,什么都没留下…
展开
-
爬虫(五) bs4解析及其应用
bs4使用前提:bs4指的是BeautifulSoup,我们将使用pip来下载bs4相关的第三方库,由于默认的pip源是国外源,这会导致下载出现诸多不稳定现象,因此在使用pip进行下载时,我们要先把pip源设置为国内源,例如阿里源,豆瓣源,网易源等等下面是在windows和linux下更改pip源的方法:windows: (1)打开文件资源管理器(2)在地址栏上面输入 %app...原创 2019-02-27 20:12:03 · 718 阅读 · 0 评论 -
4.13数据处理
如何处理下面数据:{'诗文名称': '行宫', '点赞量': '729', '诗文朝代': '唐代', '诗文内容': ['\n寥落古行宫,宫花寂寞红。', '白头宫女在,闲坐说玄宗。\n'], '诗文作者': '元稹', '诗文译文和注释': ['曾经富丽堂皇的古行宫已是一片荒凉冷落,宫中艳丽的花儿在寂寞寥落中开放。', '幸存的几个满头白发的宫女,闲坐无事只能谈论着玄宗轶事。', '寥(l...原创 2019-04-14 10:21:30 · 183 阅读 · 0 评论 -
requests出现的问题
import requestsheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) ' 'AppleWebKit/537.36 (KHTML, like Gecko)' ' Chrome/63.0.3239.132 Safari/537.36...原创 2019-04-05 22:22:53 · 3326 阅读 · 0 评论 -
爬虫(四) 正则表达式及其应用(用于数据解析)
正则表达式是用来匹配一类具有相同规则的字符串。规则:单字符:. :除换行以外的所有字符。[]:[aoe] [a-w] 匹配集合中的任意一个字符\d:数字 [0-9]\D:非数字\w:数字、字母、下划线、中文\W:非\w\s:所有的空白字符\S:非空白 数量修饰:* :任意多次。>=0+:至少一次。>=1?:可有可无 ...原创 2019-02-25 20:39:43 · 392 阅读 · 0 评论 -
爬虫(三) 复杂get请求,Handel处理器的使用
1.较为复杂的get请求:有时候当我们需要爬取不止一页网页的数据时,可能需要在每一页请求数据时在终端输入需要的信息,以此来实现爬虫过程中不同url的需求。下面是一个爬取贴吧的代码示例,能够爬取用户指定吧名和指定页数范围的内容。import urllib.requestimport urllib.parseimport os# 全部url共同的部分url = 'http://...原创 2019-02-25 19:12:07 · 354 阅读 · 0 评论 -
爬虫(二) parse、各类请求和伪装UA
前提:url的组成:url只能由特定的字符组成,字母,数字和下划线,如果出现其他的,比如 $ 空格 中文则要对其进行编码。代码示例如下:import urllib.parseimport urllib.requesturl = 'https://i.meizitu.net/2013/06/2013061932375wdkimqcyej.jpg'# ret_url = u...原创 2019-02-24 23:25:16 · 494 阅读 · 0 评论 -
爬虫(一) 爬虫概念、urllib库和各项准备
什么是爬虫?通俗都说就是在互联网上把数据爬取下来,再通过解析提取想要的内容 有哪些语言可以做爬虫?(1)php,可以做,但是多进程,多线程支持的不好(2)java,也可以做爬虫,但是代码冗余量大,重构成本大(3)c、c++ 需要高能力,并非是好的选择(4)python 语法简单,代码优美,学习成本低,支持的模块多,非常强大的框架scrapy。通用爬虫:百度、360、搜狐、谷歌、必应...原创 2019-02-24 22:26:46 · 181 阅读 · 0 评论 -
爬虫(十) requests库
requests库和urllib库一样可以用来获取网页内容,但requests使用起来比起urllib库要方便许多,requests不需要想urllib那样先获取请求,再通过请求获取响应,只需要直接通过requests使用get/post等直接获取响应,并且requests库可以通过创建会话轻松实现cookie、代理等高级功能。安装requestspip install requests...原创 2019-02-27 22:11:29 · 328 阅读 · 0 评论 -
爬虫(九)selenium自动化应用、selenium+phantomjs的使用和headlesschrome
selenium:selenium是python的一个第三方库,对外提供的接口可以操作用户的浏览器。selenium的使用:安装selenium库:pip install selenium安装驱动:操作谷歌浏览器,首先必须有一个谷歌浏览器的驱动。驱动安装网址:http://chromedriver.storage.googleapis.com/index.html驱动与...原创 2019-02-27 21:47:40 · 330 阅读 · 0 评论 -
爬虫(八)Chinaz的图片爬取
在引入这个爬取代码之前先说明俩个新的知识点:1.懒加载:用户在前端浏览网页图片的时候很多时候不是一打开网站就全部显示的,而是当图片进入用户的可视范围时才会显示出来,这是因为在前端网页中采用了懒加载技术,通俗的讲就是img标签的src属性被修改成了src2属性,当JS触发时才将src2改成src,图片显示出来。2.提取基址:可以利用os库中的os.path.basename("地址"...原创 2019-02-27 21:25:05 · 590 阅读 · 0 评论 -
爬虫(七) jsonpath解析
jsonpath: 用来解析json数据使用的Python处理json格式用到的函数:import jsonjson.dumps():将字典列表转化为json格式的字符串json.loads():将json格式字符串转化为python对象json.dump():将字典或者列表转化为json格式字符串并且写入文件中。json.load():从文件中读取json格式字符串,转...原创 2019-02-27 21:07:49 · 382 阅读 · 0 评论 -
爬虫(六)xpath解析及其应用
什么是xpath:在了解xpath前我要先了解xmlXML 被设计用来传输和存储数据。区别于html。xml是用来存储和传输数据的 和html的不同点:(1) html用来显示数据,xml是用来传输数据的(2) html标签是固定的,xml标签是自定义的而XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。常用的...原创 2019-02-27 20:58:21 · 338 阅读 · 0 评论 -
爬虫关于xpath在代码中返回为空的问题
在爬取的过程中可能会遇到在浏览器中的xpath插件中输入抽取规则后能相应的提取想要的内容,但是将这个xpath提取规则放入代码中却无法提取到内容的情况,这是可以留意下以下是否在xpath的提取规则中包含tbody标签。要注意一下,这里的主要问题是tbody标签的问题,网页返回本身是没有这个标签(还是得仔细看),是浏览器规范html元素中加上的,所以xpath路径中使用tbody标签就返...原创 2019-08-27 23:16:54 · 3858 阅读 · 4 评论