python网络爬虫
文章平均质量分 54
番茄牛腩不吃番茄
一名努力提升自己的测试工程师
展开
-
python:bs4爬取奥特曼,是不是所有奥特曼都长一样
python:bs4爬取奥特曼,是不是所有奥特曼都长一样原创 2021-11-16 21:13:47 · 1281 阅读 · 0 评论 -
python:网络爬虫之遍历单个域名获取电影名称及年份
web爬虫本质上就是一种递归,首先获取一个url对应的页面内容,检测这个页面寻找另一个url,再获取该url对应的网页内容,并不断循环这一过程。这也就是代码在运行的时候是那么慢的原因了...抱歉,强行塞了一个开头....前置:需要引入的包import reimport sslimport urllib.requestfrom bs4 import BeautifulSoup示例1:访问url并解析后返回def visit_page(url): ""...原创 2021-05-22 13:05:25 · 691 阅读 · 0 评论 -
python:网络爬虫之正则获取电影名称和封面
利用正则表达式查找电影名称和电影封面示例代码显示如下:import reimport sslimport urllib.requestfrom bs4 import BeautifulSoupurl = "https://movie.douban.com/chart"headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36...原创 2021-05-16 11:57:42 · 2739 阅读 · 1 评论 -
python:网络爬虫之异常捕获及标签过滤
增加异常捕获,更容易现问题的解决方向import sslimport urllib.requestfrom bs4 import BeautifulSoupfrom urllib.error import HTTPError, URLErrordef get_data(url): headers = {"user-agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleW...原创 2021-05-13 16:24:20 · 559 阅读 · 3 评论 -
python:网络爬虫之初运行
首先安装第三方包:Beautifulsouppip install beautifulsoup4最好是使用虚拟环境运行代码,方便管理,也不会出现第三方包之间的版本冲突,省去一些小麻烦此次是基于python标准库之urlib库运行的,当然后面肯定是会使用requests库运行的,毕竟优秀的东西大家都喜欢......爬取豆瓣网站:import urllib.requestfrom bs4 import BeautifulSoupurl = "https://mo...原创 2021-05-11 17:42:01 · 205 阅读 · 1 评论