算法
人鱼线
1、越努力,越幸运! 2、机会总是留给有准备的人! 3、承受别人不能承受的,才能得到别人不能得到的!
展开
-
字符串相似性的几种度量方法
一: 字符串相似性的几种度量方法https://blog.csdn.net/shijing_0214/article/details/531009921、余弦相似性(cosine similarity)2、欧氏距离(Euclidean distance) 3、编辑距离(edit distance) 4、海明距离(hamming distance)5、Dice 距离 6、...转载 2018-10-09 14:17:08 · 4408 阅读 · 0 评论 -
基于行块分布函数的通用网页正文(及图片)抽取
问题:如何提取任意(尤其是新闻、资讯类)网页的正文内容,提取与文章内容相关的图片,源码可见:extractor.py。抓取单个网站网页内容时通常采用正则匹配的方式,但不同网站之间结构千奇百怪,很难用统一的正则表达式进行匹配。《基于行块分布函数的通用网页正文抽取算法》的作者总结了一般从网页中提取文章正文的方法,提出基于行块分布的正文抽取算法,并给出了 PHP 、Java 等实现。这一算法的主要原...转载 2018-10-19 15:15:19 · 1649 阅读 · 0 评论 -
算法-动态规划 Dynamic Programming--从菜鸟到老鸟
算法-动态规划 Dynamic Programming--从菜鸟到老鸟https://blog.csdn.net/u013309870/article/details/75193592 《面试--动态规划》 ---五种经典的算法问题https://blog.csdn.net/tongxinzhazha/article/details/77407648...转载 2018-10-10 15:27:43 · 548 阅读 · 0 评论 -
新闻网页抽取内容概述
参考:https://www.cnblogs.com/zhengyou/p/3605458.html 一个网页的内容基本包含在正文中,对于新闻类网页尤其。将网页正文之外其他的内容剔除从而降低分析的难度是一种基本的思路。同时正文内容提取的好坏直接影响到接下来分析工作的质量。常用抽取方法基于标签: 1. 基于标签 这是很容易想到的一种思路。基于HTML文件本身的某些结...原创 2018-10-19 22:31:59 · 2696 阅读 · 0 评论 -
python 自然语言处理(NLP)入门
原 python 自然语言处理(NLP)入门 2017年11月21日 20:32:26 SinGaln 阅读数:6997 </div> <div class="operatin转载 2018-11-29 15:52:46 · 15626 阅读 · 1 评论 -
自然语言处理学习2:英语分词1word_tokenize, WordPunctTokenizer, TreebankWordTokenizer , WhitespaceTokenizer等
1. 分词word tokenize(1) 使用nltk.word_tokenize(text), 其中"isn't"被分割为"is"和"n't"(2)使用WordPunctTokenizer(),单词标点分割,其中"isn't"被分割为"isn","'" 和“t"转载 2018-11-29 16:16:53 · 1334 阅读 · 0 评论