大数据项目过程
文章平均质量分 85
壑壑哒
这个作者很懒,什么都没留下…
展开
-
ElasticSearch常用查询
Elasticsearch一个基于Lucene的搜索服务器,分布式、高扩展、高实时,能对大量数据搜索、分析和探索。实现原理主要分为以下几个步骤,首先用户将数据提交到Elastic Search 数据库中,再通过分词控制器去将对应的语句分词,将其权重和分词结果一并存入数据,当用户搜索数据时候,再根据权重将结果排名,打分,再将返回结果呈现给用户。可以使用 Kibana 来搜索,查看存储在 El...原创 2019-10-28 19:28:34 · 322 阅读 · 0 评论 -
Python 爬虫爬取新浪新闻 BeautifulSoup+requests
最近在学习Python爬虫程序,工具是pycharm,Python3.6。 因为我最终需要的是文本内容和文本标题所以实验以获取新浪新闻的文本和标题为例。 实现过程中加载的模块包括以下: 需要注意的是pip版本应当更新为10.0.1 完整代码如下:import requestsfrom bs4 import BeautifulSoupfrom datetime im...原创 2018-05-26 10:25:10 · 1495 阅读 · 2 评论 -
TF-IDF原理理解
什么是TF-IDF: TF-IDF(Term Frequency-Inverse DocumentFrequency, 词频-逆文件频率),一种用于资讯检索和资讯探勘的常用加权技术。 TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。T...原创 2018-05-26 11:41:42 · 7257 阅读 · 2 评论