1.12-1.17 项目进度

steady_pace

于 2015-01-17 22:10:36 发布

阅读量667

点赞数

分类专栏：价格预测项目进度

本文链接：https://blog.csdn.net/steady_pace/article/details/42812679

版权

价格预测项目进度专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1.10：接到任务

研究一下新闻爬虫及其语意事件分析，用mysql，weka及合适的爬虫实现。

1.11：玩了一天

1.12：开始准备，比较了各种爬虫，最终选定 scrapy作为爬虫工具。

1.13：继续研究scrapy。晚上集体地开了个会。导师重述了每个人的相关任务。

1.14：研究scrapy与mysql的连接，无果。郁闷。研究mysql的基本用法。

1.15：继续研究scrapy与mysql 的连接，用python 是可以检测到连接上了，可是依旧写不进去。郁闷、、、、、、下午，导师开会，报告进度，进行思路讨论。看了些语意分析的

论文。然后下午，晚上玩了，罪过。

1.16：突然，看了篇博客，http://www.cnblogs.com/huhuuu/p/3706994.html，感谢这位博主啊，教会了我转变思路，先把抓取的内容，存在.txt中，然后再存储到mysql中。

开始对scrapy框架有了进一步的了解。

1.17：基于上述博客的基础上，开始尝试抓取腾讯数码新闻，网易数码新闻，good!基本算是成功。然后，进一步自己经过好久的分析，添加代码，又尝试抓取新闻中的内容。

good!终于在刚才调试成功。我去，累死了。

回过头看成果，好像不算多，可是，过程中遇到了不少问题，一个个排查，解决。

从最开始的，选择爬虫，我本来想选择 nuntch,luncene,这几个java的爬虫，想趁机读代码提升java功力。还有hun**?，都是大名鼎鼎的开源爬虫。可是最后发现，还是选择scrapy吧，毕竟是个框架，而且是纯python开发的，you know，Python的威力极大，可以减轻许多工作量。就目前的状态而言，感觉选择scrapy是个不错的选择。不能一口吃个胖子，先把 scrapy 熟悉了，灵活运用了，将来在深入学习，nunch等，这样有了基础，就学的快些了，就应该不会那么痛苦了。

Job:scrapy 与各大爬虫的比较

然后是，思考如何做后面的语意分析，查了很多篇文库中的论文，都和我的目前的任务不太契合。索性自己想，

首先，这明明就是自然语言处理的部分。幸好选了NLP（虽然成绩给的，我都想找哪个TA理论，哼），可是至少学了点皮毛，心里有一丁点谱。

开始研究scrapy，跟着许多博客后面做，可是pipeline，链接数据库的地方，试了几十次，都累趴了，还是没有解决。其中，调试时，；调试的方法:

如：对test中的所有.py文件，一个个排查,就是对每个.py文件，按F5，查看错误信息（这种方法很重要，尤其是使用框架时，找不到错误在哪时。如此次，发现少装了MySQLdb模块，就是这样找到的极大的错误）

还有，对于mysql，在安装时耗费了很多功夫。（具体解决办法，见另一篇博文）太可怜了，可惜没有师兄师姐可以请教。然后发现基本的建表什么的都不会了，开始找博客，学习了一些mysql的基本的操作。use test(数据库名)；对了最最重要的是，在dos下输入每条命令时，要记得在最后加上“；”这样才算是输入了一条命令

还有，那个navicat还可以吧，能用。

当我研究scrapy和mysql为什么总是写不进去东西（到现在，其实还没解决）。我找了各种关于scrapy的文档，无奈。

此时尝试了博客http://www.cnblogs.com/huhuuu/p/3706994.html，发现他生成了个文本文件，哎，总算可以换种思路交差了。

研究他的代码。发现，Xpath,re,html标签，等知识严重缺少。尤其是xpath的学习，后面成为必备。

今天17号，还不错，今天还有点收获。上午,尝试调代码，试试抓取腾讯数码，网易数码的新闻，稍微修改了下，成功了，不过只能抓取 21k 大小的内容。不够啊。

下午玩了。

晚上，还不错。自己找到了几行重要的代码：response.body;返回的是个字符串。不过，这个字符串就是整个网页的html代码，这还不行啊，我必须从中吧文字筛出来锕。

此处又是泪和苦逼，由于不懂xpath，；当然直接用python 的re，等其他技术也可以，关键是正则表达式什么的，都不会啊。

最后，这个网又挽救了我

重要的网址：http://www.open-open.com/lib/view/open1329700631343.html

结合的代码

才知道还有这路神圣：

from sgmllib import SGMLParser (厉害的SGMLParser)

class GetIdList(SGMLParser):
def reset(self):
self.IDlist = []
self.flag = False
self.getdata = False
self.verbatim = 0
SGMLParser.reset(self)
# print "hi"

def start_div(self, attrs):

if self.flag == True:
self.verbatim +=1 #进入子层div了，层数加1
#print "div"
return
for k,v in attrs:#遍历div的所有属性以及其值
if k == 'id' and v == 'Cnt-Main-Article-QQ':#确定进入了<div class='entry-content'>
self.flag = True
# print "jinru div"
return

def end_div(self):#遇到</div>
if self.verbatim == 0:
self.flag = False
if self.flag == True:#退出子层div了，层数减1
self.verbatim -=1

def start_p(self, attrs):
#print "p"
if self.flag == False:
return
self.getdata = True

def end_p(self):#遇到</p>
if self.getdata:
self.getdata = False

def handle_data(self, text):#处理文本
#print "nihao"
if self.getdata:
self.IDlist.append(text)
# print "zhende"

def printID(self):
#print "text"
for i in self.IDlist:
# print "weishenme"
print i


class GetIdList_163(SGMLParser):
def reset(self):
self.IDlist = []
self.flag = False
self.getdata = False
self.verbatim = 0
SGMLParser.reset(self)
# print "hi"

def start_div(self, attrs):

if self.flag == True:
self.verbatim +=1 #进入子层div了，层数加1
#print "div"
return
for k,v in attrs:#遍历div的所有属性以及其值
if k == 'id' and v == 'endtext':#确定进入了<div class='entry-content'>
self.flag = True
# print "jinru div"
return

def end_div(self):#遇到</div>
if self.verbatim == 0:
self.flag = False
if self.flag == True:#退出子层div了，层数减1
self.verbatim -=1

def start_p(self, attrs):
#print "p"
if self.flag == False:
return
self.getdata = True

def end_p(self):#遇到</p>
if self.getdata:
self.getdata = False

def handle_data(self, text):#处理文本
#print "nihao"
if self.getdata:
self.IDlist.append(text)
# print "zhende"

def printID(self):
#print "text"
for i in self.IDlist:
# print "weishenme"
print i


使用：

#item['content']=response.body
sel2 = response.body #重要代码。
# sel2=response.read()

lister = GetIdList()
lister.feed(sel2)
#print 'bb'
lister.printID()

lister_163 = GetIdList_163()
lister_163.feed(sel2)
#print 'bb'
lister_163.printID()