数据分析基础知识
文章平均质量分 65
liche717
这个作者很懒,什么都没留下…
展开
-
数学之美学习笔记(1)
第1章 文字和语言vs数字和信息文字按照意思来聚类,最终回带来一些歧义。上下文建立的概率模型也会出现错误。罗塞塔石碑对自然语言处理的两点指导意义:1. 信息的冗余是信息安全的保障。2. 语言的数据,我们称之为语料,尤其是双语或者是多语的对照语料对翻译至关重要,是我们从事机器翻译研究的基础。最早的计数工具—斯威士兰的乐邦博古十进制—编码—象形文字原创 2016-01-14 10:03:39 · 398 阅读 · 0 评论 -
数学之美7
第14章 余弦定理和新闻的分类1. 新闻的特征向量对64000个汉字词进行编号,对应TF-IDF值,构成64000维的向量。2. 向量距离的度量两篇新闻的主题是否接近,取决于他们的特征向量长得像不像。利用向量的知识,计算两个向量之间的夹角来判断新闻主题的相似性。新闻的分类:(该方法准确信号,适合百万级)1) 已知一些新闻的原创 2016-03-09 17:01:00 · 381 阅读 · 0 评论 -
数学之美4
第1章 贾里尼克和现代语言处理第2章 简单之美:布尔代数和搜索引擎搜索引擎的原理:自动下载网页、建立有效的索引,公平准确的排序。1. 布尔代数若文献中含有该关键词,则为True2. 索引最简单的索引结构:用一个很长的二进制数来表示关键字是否出现在这些文献中改进:通过分布式的方式将庞大的索引存储到不同的服务器上(根据网页的序号分成很多份,原创 2016-03-09 16:43:39 · 301 阅读 · 0 评论 -
数学之美5
第1章 PageRank :Google的民主表决式网页排名技术搜索引擎的网页排序:网页的质量信息;查询与网页的相关性信息1. PageRank算法的原理核心思想:如果一个网页被很多其他网页所链接,说明他受到普遍的承认和信赖,那么它的排名就高(网页排名高的网站贡献的链接权重大)解决先有鸡蛋先有鸡的问题:二维矩阵相乘,并用迭代的方法解决了这个问题。即先假定所有的网页原创 2016-03-09 16:46:16 · 237 阅读 · 0 评论 -
数学之美6
第1章 有限状态机和动态规划:地图与本地搜索的核心技术1. 地址分析和有限状态机有限状态机是一个特殊的有向图,它包括一些状态(节点)和连接这个状态的有向弧。使用有限状态机识别地址,关键要解决的两个问题:1) 通过一些有效的地址建立状态机2) 给定一个有限状态机后,地址字串的匹配算法为了解决自然语言模糊问题,进行模糊匹配,提出基于概率的有限状态机2.原创 2016-03-09 16:48:12 · 269 阅读 · 0 评论 -
数据科学实战笔记1
第一章什么是数据科学数据化被定义成一种处理流程,将生活中的方方面转换为数据。重视数据的同时,要尊重他人的意愿。数据就是现实世界运转留下的痕迹。数据科学维恩图第二章统计推断、探索性数据分析和数据科学工作流程2.12.1.1统计推断从现实世界到数据,再由数据到现实世界的流程就是统计推断的领域。2.1.2总体和样本采样方式不同,将会得到不同的答案,结果都会失真原创 2016-03-09 16:35:48 · 416 阅读 · 0 评论 -
海量数据处理问题
前言 一般而言,标题含有“秒杀”,“99%”,“史上最全/最强”等词汇的往往都脱不了哗众取宠之嫌,但进一步来讲,如果读者读罢此文,却无任何收获,那么,我也甘愿背负这样的罪名,:-),同时,此文可以看做是对这篇文章:十道海量数据处理面试题与十个方法大总结的一般抽象性总结。 毕竟受文章和理论之限,本文摒弃绝大部分的细节,只谈方法/模式论,且注重用最通俗最直白的语言阐述相关问题转载 2016-03-16 20:55:50 · 507 阅读 · 0 评论 -
数学之美(3)
第5章 隐含马尔可夫模型原创 2016-01-14 10:17:45 · 219 阅读 · 0 评论 -
数学之美笔记(2)
第3章 统计语言模型统计语言模型产生的初衷是为了解决语音识别问题。句子S发生的概率:利用古德-图灵估计求解概率的方法是卡茨退避法,用来进行平滑另一种平滑的方法是利用低阶语言模型和高阶语言模型进行线性插值,该方法不如卡茨规避法。语料的选取:训练数据通常越多愈好;训练数据跟应用数据一致性噪声,进行预处理第4章原创 2016-01-14 10:09:21 · 842 阅读 · 0 评论 -
数学之美8
第16章 信息指纹及应用1. 信息指纹将链接对应为16个字节的随机数,称为该网址的信息指纹。信息指纹的计算步骤1) 首先将字符串转换为特别长整数2) 使用伪随机数产生器算法,将特别长的整数转化成特定长度的伪随机数(现在常用的使用梅森旋转算法,但所产生的随机数有一定的相关性,破解一个相当于破解了一大批)信息指纹不可逆,正式网络加密传输所需要的。互联原创 2016-03-09 17:04:12 · 292 阅读 · 0 评论