爬虫
11
王蒟蒻
蒟蒻
展开
-
爬取CSDN博客文章,统计文章历史数据
想法来源 CSDN作品数据里面只能查看一星期或者一个月的文章数据 但是我想查看我所有文章从开始至今的所有数据,大概如下效果 将所有信息统计后,生成excel表格 然后就可以在表格进行各种统计,查看,比如按照访问量排名之类的 网页分析 目标是爬取 文章标题 地址 点赞数 评论数 收藏数 阅读数 CSDN个人页面是下拉刷新的,所以使用selenium 个人页面源代码不能获取收藏数 收藏数需要进入具体文章爬取 标签直接使用谷歌自带工具就可以进行爬取,就不进行分析了,简单 代码 from selenium原创 2021-07-09 16:30:39 · 489 阅读 · 0 评论 -
想爬取必应做壁纸?这样做就够啦!
网页分析 网址选取 由于必应壁纸官方网址很难爬取 所以我们选择其他保存了必应图片的网站 http://www.zhishile.com/ 网页分析 点击图片进入的网址为 http://www.zhishile.com/Wallpaper/20210708 http://www.zhishile.com/Wallpaper/20210707 http://www.zhishile.com/Wallpaper/20210706 在首页处进行抓包 <div class="card"><a原创 2021-07-08 23:25:39 · 558 阅读 · 0 评论 -
xpath进行数据解析基础教程
源数据 <html lang="en"> <head> <meta charset="UTF-8" /> <title>测试bs4</title> </head> <body> <div> <p>百里守约</p> </div> <div class="song"> <p>李清照</p> <p>王安石</原创 2021-07-07 22:46:05 · 710 阅读 · 0 评论 -
bs4进行数据解析基础教程
from bs4 import BeautifulSoup import os fp = open('C:/Users/axyzw/Downloads/爬虫课件/第三章:数据解析./test.html','r',encoding='utf-8') soup = BeautifulSoup(fp,'lxml') 源文件 <html lang="en"> <head> <meta charset="UTF-8" /> <title>测试bs4</ti.原创 2021-07-07 17:21:34 · 458 阅读 · 0 评论