![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
文章平均质量分 64
依剑仗天涯
实践是检测真理的唯一方法!
展开
-
Python数据可视化之Matplotlib(饼图)
使用Matplotlib提供的pie()函数绘制饼图import matplotlib.pyplot as pltimport matplotlib.font_manager as fm #字体管理器#准备字体my_font = fm.FontProperties(fname="/usr/share/fonts/wqy-microhei/wqy-microhei.ttc")#准备数据data = [0.16881,0.14966,0.07471,0.06992,0.04762,0.03541,0原创 2021-06-22 17:48:54 · 1309 阅读 · 0 评论 -
python爬虫获取页面信息
获取页面信息,最简单的办法,亲测可行from simplified_scrapy.request import reqhtml = req.get('https://www.baidu.com/')print(html)注意:小心使用,防止反爬禁止IP原创 2021-07-28 10:24:13 · 170 阅读 · 0 评论 -
简单入门的爬虫实例
1.爬取强大的BD页面,打印页面信息2.常用方法之get方法实例,下面还有传参实例3. 常用方法之post方法实例,下面还有传参实例4. put方法实例5.常用方法之get方法传参实例(1)6.常用方法之get方法传参实例(2)7.常用方法之post方法传参实例(2) 和上一个有没有很像8.关于绕过反爬机制,以zh姐姐为例9.爬取信息并保存到本地,因为目录关系,在D盘建立了一个叫做爬虫的文件夹,然...原创 2020-12-26 09:54:32 · 146 阅读 · 0 评论 -
爬虫之实战篇(二)
# 抓取电影的所需信息(健全上次的代码)# actor : 大明import requestsimport sysimport timefrom bs4 import BeautifulSoupurl = 'https://vip.1905.com/?fr=homepc_menu_vip'headers = { 'User-Agent': 'Mozilla/5....原创 2020-11-03 10:52:22 · 16995 阅读 · 0 评论 -
爬虫之实战篇(一)
# 抓取电影的所需信息# actor : 大明import requestsimport sysimport timefrom bs4 import BeautifulSoupurl = 'https://vip.1905.com/?fr=homepc_menu_vip'headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT...原创 2020-11-03 10:52:48 · 1932 阅读 · 0 评论 -
爬虫之解析工具---re(四)
概念:正则表达式对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑正则表达式匹配过程:依次拿出表达式和文本中的字符比较 如果每一个字符都能匹配,则匹配成功;一旦有匹配不成功的字符则匹配失败 如果表达式中有量词或边界,这个过程会稍微有一些不同语法及相关注释:一般字符 ...原创 2019-05-16 14:24:50 · 261 阅读 · 0 评论 -
爬虫之解析工具---Xpath(三)
XPath 是一门在 XML 文档中查找信息的语言。可用来在 XML 文档中对元素和属性进行遍历话不多说,直接讲技术点。 技术要点 选取节点 列出了一些路径表达式以及表达式的结果,如下: 谓语 谓语是来查找某个特定的节点或者包含某个指定的值得节点谓语被嵌在后面的方括号中 .选取未知节点 选取若干路径 使用 首先我们使用 ...原创 2019-05-16 13:33:02 · 253 阅读 · 0 评论 -
爬虫之解析工具---BeautifulSoup(二)
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。 Beautiful Soup已成为和lxml、html5lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度使用 首先导入bs4库,创建BeautifulSoup对象。 soup的用法 标签中有name 和 attrs,可以利用soup加 标签名 轻...原创 2019-05-16 10:23:50 · 298 阅读 · 0 评论 -
python抓取页面中主要信息的方法(二)
天下的网站没有我爬不到的,只有不想爬的(有吹牛逼之嫌)。Python2慢慢被Python3所代替了,主要以3为主,话不多说,直接看技术点吧正则表达式re(难) 获取<tr></tr>标签之间内容 获取<a href..></a>超链接之间内容 获取URL最后一个参数命名图片或传递参数 爬取网页中所有URL链接 爬取网页标题t...原创 2019-09-18 21:41:57 · 139 阅读 · 0 评论 -
python获取页面数据的方法(一)
天下的网站没有我爬不到的,只有不想爬的(有吹牛逼之嫌)。Python2慢慢被Python3所代替了,主要以3为主,话不多说,直接看技术点吧爬取的网站:url = ‘https://www.baidu.com/’requests的方法 import requestsurl = 'https://www.baidu.com/'req = requests.get(url)...原创 2019-05-15 15:52:00 · 5738 阅读 · 2 评论 -
简单粗暴地抓取百度的图片——2
首先我们用到的软件是工具是pycharm,py3.6版本,工具和上期略有差别requests 和 re接着看下效果吧~~~上期是把段子直接输出在控制台上,有的读者私信我,怎么放到本地~~~接下来开始我的表演1、还是一样,先导入工具包 import requests import re2、还是一样,写一个主函数 if __name__ == '...原创 2018-10-11 13:23:08 · 1169 阅读 · 6 评论 -
简单粗暴的抓取糗百的段子——1
首先我们用到的软件是工具是pycharm,py3.6版本,工具包是 requests 和 bs4,没下载的抓紧时间哈~~~接着看下效果图吧~空行没有消除,跟题目很相仿~~~简单粗暴,这里只说方法 1、导入工具包 import requests from bs4 import BeautifulSoup 2、先写一个主函数 if __...原创 2018-10-11 10:41:28 · 214 阅读 · 0 评论