文本处理
struggleee_luo
你当温柔,却有力量
展开
-
Web Scraping with Python 学习笔记7
Chapter 7:Cleaning Your Dirty DataCleaning in Code 首先简单介绍一下N-Gram,N-Gram是大词汇连续语音识别中常用的一种语言模型,对中文而言,我们称之为汉语语言模型(CLM, Chinese Language Model)。在做自然语言处理时,通常会根据句子中的固定搭配把句子划分为小片段,这里的固定搭配有2个词组成(2-gram)原创 2015-12-21 13:36:54 · 2946 阅读 · 0 评论 -
Web Scraping with Python 学习笔记6
Chapter 6: Reading Documents 本章主要解决文档读取问题,是否需要你下载下来再读取还是直接读取从中抽取你需要的数据,同时讨论一下不同文档的编码格式。文本文档 如果能直接爬取文本文档那是最好不过了,但是现在的网页都是HTML,XML等格式的,需要我们进行有针对的转换,通常情况下,我们把html文档转为BeautifulSoup对象,然后根据标签(比原创 2015-12-19 13:17:52 · 1498 阅读 · 0 评论 -
Affinity Propagation (AP) 聚类算法的Java实现
Affinity Propagation (AP) 聚类是最近在Science杂志上提出的一种新的聚类算法。它根据N个数据点之间的相似度进行聚类,这些相似度可以是对称的,即两个数据点互相之间的相似度一样(如欧氏距离);也可以是不对称的,即两个数据点互相之间的相似度不等。这些相似度组成N×N的相似度矩阵S(其中N为有N个数据点)。AP算法不需要事先指定聚类数目,相反它将所有的数据点都作为潜在的聚类中原创 2014-12-29 16:04:32 · 3927 阅读 · 15 评论