因为课题需要爬取大量的股吧的股民讨论情况,以此继续探讨股民情绪对股票走势的影响
而我负责爬虫和分词工作,亲手写了一个爬虫代码,来爬取股吧-东方财富吧的股友会帖子信息
代码如下:
#!/usr/bin/env python
# -*-coding:utf-8 -*-
import urllib
import urllib2
import re
#导入对excel文件进行操作的库
import xlwt
#创建表格,设置编码模式,创建新的sheet
book=xlwt.Workbook(encoding='utf-8',style_compression=0)
sheet=book.add_sheet('dede',cell_overwrite_ok=True)
#j的作用是对url不断进行修改,翻页
for j in range(1,1192):
print j
url =