论坛中动态更新的评论爬取 (Python3)

本文介绍了使用Python爬虫抓取雪球网股票评论的过程,包括遇到的动态内容问题、AJAX加载的解决、网络流量分析及数据存储的挑战。通过requests和BeautifulSoup获取数据,利用paramiko进行远程txt存储,同时探讨了存储格式不一致的问题。
摘要由CSDN通过智能技术生成

    这次是有关爬虫的内容,主要是写一些本人在其过程中遇到的坑和解决办法,毕竟菜鸡,还是有很多要学习的。

    如有谬误,还请斧正。如有建议,还望赐教。如有问题,欢迎讨论。

正文

    我觉得写爬虫是一个吃力不讨好的活,对不同的网站要写不同的虫,对不同的网页要写不同的虫,对动态静态的内容要考虑不同的实现方案,动态内容还写成增量虫(菜鸡自定义的呵呵),啊其中还掺杂各种格式统一,找tags,找headers,点来点去就很烦。

    bobby今天写的是一个股票爬虫,用的python,另外关于库,虽然感觉scrapy要正规一点,不过这次没有用。下面以雪球网(XQ)为例,小生描述一下流程,中间各种坑,不想看可以跳过,代码在文后链接中。

1.去XQ网上,先看看怎么找到股票的评论,在https://xueqiu.com/S/SH123456 这样的网页就是了,格式很简单,很好。

2.从数据库读取股票的symbol,也叫code(就SH000000这种,有很多条)。其实bobby是从数据库export成.csv的: )

3.进入想要的股票网页,点开chrome的inspection,去找评论对应的标签。

4.用requests和BeautifulSoup取标签及其内容。

5.整理、统一数据格式,存入.txt或者database中去。

    我用pandas库读取.csv中的code数据,读取第一个code的评论时

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值