Algorithm
「已注销」
本博客现只用于学习用,可能会转载他人的知识,若有涉及到您的版权问题,请与我联系。
展开
-
【网页正文识别及提取算法】基于正文特征分块
什么是正文特征网页主要由以下三部分组成:正文文本锚点文本(链接)标签文本网络正文通常在网页中占了大量的篇幅,大量的语句,且包含了标点符号。我们可以利用这些特征将正文快速的分块出来。网页分块浏览器呈现网页的时候,会把内容相似的网页放在一块。我们可以关注描述布局结构的标签,比如table,tr,td,div等等。另外还可以关注b,title,hn这种说明主题信息的标签。步骤大致...原创 2020-03-15 16:41:01 · 886 阅读 · 0 评论 -
【机器学习】回归分析
什么是回归分析?回归分析(Regression Analysis)是一种统计学上对数据进行分析的方法,主要是希望探讨数据之间是否有一种特定关系。回归分析是建立因变量Y(或称依变量、原文为:response variables, dependent variables)与自变量X(或称独变量,原文为predictors, independent variables)之间关系的模型。回归分析法,...原创 2020-03-15 15:14:23 · 973 阅读 · 0 评论 -
【数据挖掘】数据清洗
什么是数据清洗?数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。数据清洗的步骤缺失值的处理无效值的处理统一规格纠正错误和逻辑删除重复项转换构造缺失值的处理对于缺失值看重要性和缺失率。如果重要性高的,就需要从其他渠道补全,根据经验填满。如果没办法处理,就去除该数...原创 2020-03-15 15:07:06 · 2113 阅读 · 0 评论 -
【网页正文识别及提取算法】提取网络正文的实践
Python的newspaper安装:pip3 install newspaper3kgithub:https://github.com/codelucas/newspaper什么是网络正文?简单介绍什么是网络正文。例子参考官方的例子,进行如下尝试:博客>>> from newspaper import Article>>> url = ...原创 2020-03-15 13:13:26 · 1310 阅读 · 1 评论 -
【网页正文识别及提取算法】什么是网络正文?
考虑一张网页:正文就是用户关心的部分。上图的正文部分在哪里呢?大概是在这一块,用户并不怎么关注广告,也不关注导航和链接。因为这并不是我们进入这个网页的主要目的。当然上图只显示内容的一部分。那么它的原文呢?请求::curl -o baidu https://baike.baidu.com/item/%E7%99%BE%E5%BA%A6/6699 % Total % Recei...原创 2020-03-14 22:20:43 · 2164 阅读 · 1 评论 -
【图论】图的存储方式之邻接矩阵结构 实例
【图论】图的存储方式之邻接矩阵结构学会一个东西,需要用它来解决问题。简单的问题无向图中,有n个点,m条边,询问任意起点到任意终点长度为z的路径共有多少条?两条路径相同当且仅当每一步它们经过的结点相同。数据范围限制:1 <= n,x,y,z,q <= 100思路:对于一个无向图:它的邻接矩阵表示如下:以上图的表示为:设程序中的二维数组的定义为matrix。则m...原创 2020-03-14 21:48:06 · 750 阅读 · 0 评论 -
【自然语言处理】 常见的文本相似度计算方法
引言在自然语言处理中,我们经常需要判定两个东西是否相似。比如,在微博的热点话题推荐那里,我们需要比较微博之间的相似度,让相似度高的微博聚集在一起形成一个簇,提出一个主题。在问答系统中,比如说人工客服,我们需要提前准备好问题和一些答案,让用户输入的问题与题库中的问题进行相似度的比较,最后输出答案。在推荐系统中,我们需要提取一个用户的所有物品,在根据这个物品找到对应的用户群,比较两个用户之间的...原创 2020-03-14 20:02:00 · 1783 阅读 · 0 评论 -
【网页正文识别及提取算法】- Python requests的安装与简单运用
文档Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。Requests 允许你发送纯天然,植物饲养的 HTTP/1.1 请求,无需手工劳动。你不需要手动为 URL 添加查询字串,也不需要对 POST 数据进行表单编码。Keep...原创 2020-03-14 13:42:05 · 525 阅读 · 0 评论 -
【图论】图的概念及种类
图的概念及种类图的概念图是互连结点的集合如图所示,一个图可能是这样:图有结点(node)和边(Edge)。节点之间通过边互相连接。二元组的定义图G是一个有序二元组(V, E),其中V称为顶集(Vertices Set),E称为边集(Edges set),E与V不相交。它们亦可写成V(G)和E(G)。图的种类有向图和无向图如果给图的每条边规定没有方向,那么得到的图称为无向图。在...原创 2020-03-13 20:40:27 · 2963 阅读 · 0 评论 -
那些想不出来的问题
给一个图,图中有点,点有权值,点之间有边。求任意点组成的点集的最大值,要求点集之间的点不相连。问了很多人都无解,不在二分图上啊。原创 2020-03-13 00:16:51 · 238 阅读 · 0 评论 -
那些常见的数据结构
数组链表/双向链表队列/单调队列/双端队列栈/单调栈树/森林堆/最大堆/最小堆hash表完全二叉树/满二叉树树状数组st表线段树/线段树合并主席树splay树treap树 随机平衡二叉树Scapegoat Tree 替罪羊树块状数组块状链表红黑树跳表B树B+树/B*树并查集树套树/线段树套线段树/线段树套平衡树/平衡树套线段树左偏树配对堆四分树...原创 2020-03-12 17:16:41 · 424 阅读 · 0 评论 -
那些程序员应该掌握的算法
排序冒泡排序选择排序插入排序(二分插入)希尔排序堆排序快速排序归并排序(二路归并,多路归并,Timsort排序算法)计数排序桶排序基数排序拓扑排序搜索DfsBfs二分搜索三分搜索最值与查询RMQ树状数组线段树最短路Dijkstra算法Bellman-Ford算法Floyd算法SPFA算法差分约束A*算法最小生成树Krusk...原创 2020-03-12 17:05:33 · 3306 阅读 · 1 评论 -
简单说一下Timsort排序算法(Python,Java的官方排序算法)
学过编程的人都学过排序算法,学过排序算法的人肯定都听说过归并排序。Timsort排序算法就是归并排序的改进算法。它改进了哪里?回想下归并排序的特点:排序过程需要将原数列一分为二,先将子序列排序好后在归并。整个排序过程接近于一颗完全二叉树。它的比较次数相对稳定。如果对于已经有序(顺序或逆序)的结构依然花费比较比较高的时间。Timsort就是对归并排序存在的缺点进行了改进。归并排序其...原创 2020-03-09 14:02:56 · 637 阅读 · 0 评论 -
TimSort算法 - Python、 Java、 Android平台 和 GNU Octave 的默认排序算法
TimSort算法是一种起源于归并排序和插入排序的混合排序算法,设计初衷是为了在真实世界中的各种数据中可以有较好的性能。它的过程如下:扫描数组,确定其中的单调上升段和严格单调下降段,将严格下降段反转。定义最小基本片段长度,短于此的单调片段通过插入排序集中为长于此的段。反复归并一些相邻片段,过程中避免归并长度相差很大的片段,直至整个排序完成,所用分段选择策略可以保证O(n log n)时间...原创 2020-03-09 04:59:29 · 403 阅读 · 0 评论