- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 【开源】scrapy爬取亚马逊商品评论
一、前言 上一篇博文http://blog.csdn.net/c_son/article/details/43267551对亚马逊商品的爬取,这次在上一篇的基础之上,对爬取到的商品,我们再进行用户评论的爬取。源码见github https://github.com/jerry-sc/AmazonIphone6CommentsSpider.git二、items.py
2015-01-29 20:32:38 5379 2
原创 【思路】基于互联网电子产品评论的舆情分析
一、前言 最近在一位研究生的带领下,在研究互联网电子产品评论的舆情分析。觉得这个项目挺有意义的,跟我感兴趣的大数据,数据挖掘这块也很沾边。也看了不少论文了,在此写点我的心得,以及整个project实现的思路。下面我将以某一手机品牌为研究对象。整个工程可以分为数据获取,数据预处理,评论情感分析,成果展示这四个方面。二、数据获取 数据来源的途径有很多,我将它分为两种
2015-01-29 14:11:57 1808
原创 【开源】scrapy爬取亚马逊商品信息
一、前言 最近的一个项目需要用到爬虫,虽然以前用JAVA也写过爬虫,不过实现的都是一些简易的功能,比如我开发的一个微信公众号(叫“妈妈再也不担心”,大家可以关注下),里面比如的NBA赛事查询功能,热播电影查询等。不过从许多论文里面提及的,以及很多人推荐的,好像python更适合做爬虫,又了解到python里面有个框架叫scrapy,所以最近想研究下这个,去爬取批量的数据。这次我先拿
2015-01-29 10:29:18 10774 5
转载 PYTHON风格规范——Google 开源项目风格指南
Python风格规范分号Tip不要在行尾加分号, 也不要用分号将两条命令放在同一行.行长度Tip每行不超过80个字符例外:长的导入模块语句注释里的URL不要使用反斜杠连接行.Python会将 圆括号, 中括号和花括号中的行隐式的连接起来 , 你可以利用这个特点. 如果需要, 你可以在表达式外围增加一对额
2015-01-27 20:00:22 1002
原创 ubuntu下eclipse pydev 离线 环境搭建 及相关问题解决
最近项目需要用到python,然后就屁颠屁颠的去学python,首先IDE的选择,由于之前一直用eclipse开发java,当然对eclipse也是有一定了解,所以这次还是选eclipse作为IDE。百度随便一搜,eclipse pydev环境搭建,相信肯定有一大堆教程,我看了下,好像大多数都是在线安装,跟着试了试,相信大家十有八九会失败,因为该地址被和谐掉了,当然可以通过翻墙设置代理等把它下
2015-01-24 10:18:19 1752
原创 git 命令集合
一口气读完了廖神的博客,真心觉得太赞,非常通俗易懂,里面的python教程也非常棒。推荐大家访问他的个人网站http://www.liaoxuefeng.com/。初学git也记不了这么多命令,写个文章把里面的命令整理下,方便日后查找。1.将所在目录变成git可以管理的仓库git init2.将修改提交到暂存区git add filename3.一次性将暂存区所
2015-01-23 22:29:57 698
原创 ubuntu 64位 WPS安装问题的解决
今天用Ubuntu(64位)装WPS时碰到了各种问题,通过各种资料查找,总算成功了,下面来总结下。首先,去官网下载WPS的deb包,这个不多说,附上链接http://community.wps.cn/download/原以为安装好就OK了,可是发现怎么点都点不开,原来,官网提供的WPS是32位的操作系统,所以64位的操作系统不能用。因此我们还要安装32位操作系统的库文件。可通过下面命令安装
2015-01-19 23:41:59 2782
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人