爬虫
11
王蒟蒻
蒟蒻
展开
-
爬取CSDN博客文章,统计文章历史数据
想法来源CSDN作品数据里面只能查看一星期或者一个月的文章数据但是我想查看我所有文章从开始至今的所有数据,大概如下效果将所有信息统计后,生成excel表格然后就可以在表格进行各种统计,查看,比如按照访问量排名之类的网页分析目标是爬取文章标题地址点赞数评论数收藏数阅读数CSDN个人页面是下拉刷新的,所以使用selenium个人页面源代码不能获取收藏数收藏数需要进入具体文章爬取标签直接使用谷歌自带工具就可以进行爬取,就不进行分析了,简单代码from selenium原创 2021-07-09 16:30:39 · 459 阅读 · 0 评论 -
想爬取必应做壁纸?这样做就够啦!
网页分析网址选取由于必应壁纸官方网址很难爬取所以我们选择其他保存了必应图片的网站http://www.zhishile.com/网页分析点击图片进入的网址为http://www.zhishile.com/Wallpaper/20210708http://www.zhishile.com/Wallpaper/20210707http://www.zhishile.com/Wallpaper/20210706在首页处进行抓包<div class="card"><a原创 2021-07-08 23:25:39 · 513 阅读 · 0 评论 -
xpath进行数据解析基础教程
源数据<html lang="en"><head> <meta charset="UTF-8" /> <title>测试bs4</title></head><body> <div> <p>百里守约</p> </div> <div class="song"> <p>李清照</p> <p>王安石</原创 2021-07-07 22:46:05 · 680 阅读 · 0 评论 -
bs4进行数据解析基础教程
from bs4 import BeautifulSoupimport osfp = open('C:/Users/axyzw/Downloads/爬虫课件/第三章:数据解析./test.html','r',encoding='utf-8')soup = BeautifulSoup(fp,'lxml')源文件<html lang="en"><head> <meta charset="UTF-8" /> <title>测试bs4</ti.原创 2021-07-07 17:21:34 · 437 阅读 · 0 评论