爬虫
文章平均质量分 95
兰博怎么玩儿
这个作者很懒,什么都没留下…
展开
-
爬虫笔记1 requests获取网页源代码与正则表达式处理文本
@兰博怎么玩儿 爬虫笔记1 第一个爬虫程序和BeautifulSoup解析库 接触爬虫不久,特利用此笔记记录一下爬虫学习过程和心得,如有错误请批评指正。 本文介绍:利用BeautifulSoup解析库,爬取起点中文网(https://www.qidian.com/rank/yuepiao?style=2)中“原创风云榜”榜单数据。 1、准备 python版本 3.5.0 安装第三方库:re...原创 2018-12-10 01:20:18 · 1919 阅读 · 0 评论 -
爬虫笔记2 BeautifulSoup解析库与文件操作
@兰博怎么玩儿 本文介绍:利用正则表达式,爬取小说《斗破苍穹》(http://www.doupoxs.com/doupocangqiong/)的所有章节,并按章节存储在本地不同的txt文件中。同时介绍一些将爬取到的数据存储在其它格式文件中的方法。 1、正则表达式 所谓正则表达式,就是用特定的符号,处理字符串。因此我们可以利用它从爬取到的数据中筛选我们想要的字段。 下面介绍一些爬虫中常用的字符: ...原创 2019-01-12 22:19:28 · 806 阅读 · 0 评论 -
爬虫笔记3 Xpath语法与多进程爬虫
@兰博怎么玩儿 本文介绍:本文介绍Xpath语法,并用一个实例对比BeautifulSoup与Xpath的爬取速度,最后我们再介绍如何多线程地运行爬虫程序 1、Xpath的使用 1.1 基本用法 Xpath需要第三方库:lxml。其语法是: 获取文本: //标签1[@属性1=“属性值1”]/标签2[@属性2=“属性值2”]/.../text() 获取属性值 //标签1[@属性1=“属性值1”]...原创 2019-01-13 00:37:35 · 270 阅读 · 0 评论