这次是有关爬虫的内容,主要是写一些本人在其过程中遇到的坑和解决办法,毕竟菜鸡,还是有很多要学习的。
如有谬误,还请斧正。如有建议,还望赐教。如有问题,欢迎讨论。
正文
我觉得写爬虫是一个吃力不讨好的活,对不同的网站要写不同的虫,对不同的网页要写不同的虫,对动态静态的内容要考虑不同的实现方案,动态内容还写成增量虫(菜鸡自定义的呵呵),啊其中还掺杂各种格式统一,找tags,找headers,点来点去就很烦。
bobby今天写的是一个股票爬虫,用的python,另外关于库,虽然感觉scrapy要正规一点,不过这次没有用。下面以雪球网(XQ)为例,小生描述一下流程,中间各种坑,不想看可以跳过,代码在文后链接中。
1.去XQ网上,先看看怎么找到股票的评论,在https://xueqiu.com/S/SH123456 这样的网页就是了,格式很简单,很好。
2.从数据库读取股票的symbol,也叫code(就SH000000这种,有很多条)。其实bobby是从数据库export成.csv的: )
3.进入想要的股票网页,点开chrome的inspection,去找评论对应的标签。
4.用requests和BeautifulSoup取标签及其内容。
5.整理、统一数据格式,存入.txt或者database中去。
我用pandas库读取.csv中的code数据,读取第一个code的评论时