Python爬虫
zhouwhui
希望未来的光来到光来之前
展开
-
【Python】正则表达式 re 库的常见使用
正则表达式1. 正则表达式特殊字符^ 匹配最后面,即^后一个字符在要匹配的字符串中是第一个,否则返回空列表 $ 匹配最后面,即$前一个字符在要匹配的字符串中是最后一个,否则返回空列表 . 匹配任意单个字符,即可用 . 进行占位,例:a.b —> 可匹配 abb,acb,a1b等? 匹配之前项的1次或者0次,即?可匹配前一个字符也可不匹配,如 ab? —> 可匹配 a 也被匹原创 2021-07-25 21:34:17 · 1197 阅读 · 0 评论 -
【Python爬虫】 XPath 与 selector 的 获取
xpath的值在网页中获取方式:1. 首先可以使用以下三种方式中的任意一种打开浏览器的开发者模式(1). 右键“检查”(2). ctrl+shifft+i(3). 浏览器“设置” --> "更多工具" --> “开发者工具”使用下图(浏览器开发者模式)中的图标可选择浏览器中想要获取的内容2. 在网页上选中想要获取的内容,开发者工具中会高亮显示对应的内容源码,如下图所示3. 在开发者模式中找到对应的内容后点击右键 ---> Copy ---> ...原创 2020-08-20 20:17:35 · 6163 阅读 · 0 评论 -
【Python爬虫】 lxml 与 Beautiful Soup 解析网页代码的不同方式
1. 使用 lxml 解析(1). 首先,使用 lxml 做解析时需要先安装 lxml 库,并且用于解析的方法在 lxml 库中的 etree 类中,所以在使用时我们引入的是:from lxml import etree(2). 在实际解析时的操作为,如下所示:# response.text 为响应的网页源码内容content = etree.HTML(response.text)(3). 在实际获取某一部分元素内容时,先获取到元素的 xpath,然后将 xpath 值放到 ...原创 2020-08-20 20:01:28 · 1554 阅读 · 0 评论 -
【Python爬虫】 爬取商品图片并下载
【Python爬虫】 爬取图片并下载。原创 2020-08-10 11:47:34 · 2009 阅读 · 2 评论 -
【Python可视化】 将 bilibili 弹幕进行可视化(词云图)
获取到bilibili视频弹幕后存储到txt文件中,本篇博文将txt文件中的博文做一个可视化的展示,可视化的方式采用了词云图的方式原创 2020-08-10 11:33:08 · 1778 阅读 · 0 评论 -
【Python爬虫】 爬取招聘信息(requests、lxml库)
使用Python中的 requests 请求数据使用 lxml 中的 etree 解析 html代码xpath的值在页面中获取:使用三种方式可以打开浏览器的开发者模式1. 右键“检查”、2. ctrl+shifft+i、3. 浏览器“设置” --> "更多工具" --> “开发者工具”使用下图中的图标可选择浏览器中想要获取的内容import requests # 请求数据from lxml import etree # 解析html代码def get_dat.原创 2020-08-07 14:56:50 · 1461 阅读 · 0 评论