- 博客(5)
- 收藏
- 关注
原创 旅游评论情感分析(1)---爬虫(json篇)
从今天开始准备整理一下,之前的写过的一些小项目。这一个项目是我唯一一个接触NLP的项目,因为身边的老师大多是从事CV 机器视觉一块的项目。而对于我而言,NLP其实是我学习机器学习的初衷。因为,暑假实训的关系认识了一个妹子是学习旅游专业,他们需要对我国某一个地方的旅游景点需要进行考察,除了他们之后实地考察外,我们小组的实训任务是帮助他们在网上下载阳朔的旅游景点的评论。并加以分析情感。所以关...
2019-02-15 17:07:33 3503 2
原创 旅游评论情感分析(1)---爬虫(xpath re补充篇)
上一篇主要是从获取json数据进行爬虫但是其实还有一种方法,在这个博客做一个备注。Xpath我们利用XPath进行html定位,我先是在谷歌第三方下载第三方插件xpath.然后如果我先点击控制台的小箭头,然后得到了这张图的在html的定位再copy xpath, 便可以获取xpath的位置。示例代码headers = create_headers()response = reque...
2019-02-15 17:07:20 835
原创 旅游评论情感分析(2)---前期调查
说实话,因为我们学校的老师之前从事的都是图像识别工作。对NLP领域相对没有那么的熟悉,所以摆在我们面前的难度其实还是挺困难的。就如上文所讲,我们爬虫各种网站准备数据的时间大约花了10多天左右。然后就是期间接触到了上述三种爬虫的方法,json,xpath,正则表达式。*但是实际上正则表达式,我运用并没有很好。所以立一个flag,在整理完这个项目的之后再专门开一个帖子进行正则表达式的整理。 *...
2019-02-15 17:07:11 891
原创 旅游评论情感分析(2)---前期调查总结
经过遍历了一下最近八年的自然语言处理的项目,比赛,算法。初步了解了一下流程之后,最后制定出来了一个大致的步骤。以下是关于NLP的基本步骤数据预处理中文分词—— (方法)基于词典 基于规则 基于统计 基于字标注 基于人工智能——(工具)哈工大资料,东北大学资料,中科院,波森,jieba,ansj,HanLP特征提取—— (方法)根据词性,单词组合,位置—— (方式)词是否出现...
2019-02-15 17:06:31 1594 2
原创 动态规划合辑
其实一直都没有写博客的习惯,只是最近一直看了很多篇关于动态规划很好的博客,决定mark一下。以前一直在网易上面写博客,觉得还是没有太大的必要,先开csdn,应该以后会经常用到。1.动态规划入门(最简易的方法):http://blog.csdn.net/woshioosm/article/details/74388342.背包问题(图文+C语言):http://blog.csdn.n
2017-09-28 20:54:37 306
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人