- 博客(2)
- 收藏
- 关注
原创 实现爬取csdn个人博客并导出数据
因为最近也在学习python,爬虫和一点pandas的内容刚好看到一篇博客,博客地址:https://blog.csdn.net/xiaoma_2018/article/details/108231658也是实现一样的内容的,只是使用的方式被我改了一下,我也是借鉴学习大佬的方法我所使用到的库有lxml, urllib.request代码如下'''导入所需要的库'''import urllib.request as urimport lxml.etree as leimport pandas
2020-09-24 23:52:07 3473 3
原创 scrapy爬虫-爬取wattpad外网小说网站
目前还在学习爬虫scrapy框架,尝试爬取外网的小说网站:https://www.wattpad.com/stories/adventure目前只是实现了一部分非常简单的内容爬取还未实现的功能‘’‘1、将parse1和parse2 的内容结合到一起2、没有实现根据阅读量去提取作者信息3、没有实现将内容保存到数据库中‘’‘’有大佬看了可以指点一下吗?代码如下:import scrapyimport reimport urllib.response as urimport lxml.e
2020-09-21 16:50:04 2532
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人