爬虫
追梦的少年Ly
别配不上自己的野心,也别辜负了曾经历的苦难...
展开
-
爬取网易云音乐(通过外链)
2.观察了一下具体的网页源码,发现有个大的iframe框架。然后我就开始尝试着跳入iframe框架,再进行获取网页源码,这次发现获取到的源码包含了歌曲信息,good!1.刚开始获取网页源码,即page_source,获取到的内容不包含对应的热歌榜中的歌曲信息。在网页中用xpath插件定位也定位不了,换了class定位也不行。id=3778678中的音乐进行爬取,下载到本地文件夹中。1.获取热歌榜中的音乐链接,切分出每首歌曲对应的id,拼接成外链。2.根据对应的外链,写到本地文件夹中。原创 2023-10-18 15:43:28 · 479 阅读 · 0 评论 -
爬取网页表格数据至本地
1.对http://quote.eastmoney.com/center/gridlist.html#hs_a_board网站进行数据的爬取。2.在代码中,指定D:/spider_file/spider_excel/stock.xls。我们可以看见,D列行宽通过我们的代码完成改变了,数据共爬取5380行。1.目前只选取了部分字段的数据,2.0的想法是把所有字段爬取下来。1.今天实现了多页爬取,将沪深京的所有股的信息爬取下来了。很早之前写的代码了,自己搬运一下的。1.将所有字段都爬取下来了。原创 2023-10-18 15:40:36 · 462 阅读 · 1 评论 -
爬取网页文本
1.对https://www.qidian.com/rank/fengyun/chn21/page1/网站进行了图片的爬取。3.1.0版本,目前实现的是爬取小说的名称、摘要,存入指定记事本中。2.并下载到了本地的D:\spider_text的文件夹中。1.获取小说名称以及小说摘要,存入对应列表。很早之前写的了,搬运一下自己的。2.遍历列表,写入指定记事本中。原创 2023-10-18 15:34:19 · 131 阅读 · 1 评论 -
爬取网站图片2.0版
爬取思路:1.今天的任务是想把整个网站所有页面的图片都爬下来,简单观察了一下不同网站的规律,发现他们的网址链接是有规律的,如下可发现,他们的链接末尾是依次+1(除第一页外),利用这个规律,我们通过for循环,将所有要跳转的网址写入了列表,后面涉及的相同的代码也写进for循环。其余代码和昨天差不多。但是我发现在我开始写2.0版本的时候发现自己的代码,太乱了!2.在封装1.5的时候,写着写着把2.0也实现了emmm,差不多一个小时,实现了全部页面图片的爬取下载,共爬取44张网页,爬取图片爬了1638张。原创 2023-10-18 15:12:40 · 76 阅读 · 1 评论 -
爬取网站图片1.0版
爬取网站图片并下载本地原创 2023-05-15 18:41:13 · 65 阅读 · 0 评论