数据分析
文章平均质量分 91
懒骨头707
这个作者很懒,什么都没留下…
展开
-
Ubuntu16.04上Hadoop完全分布式的搭建
第一步:所有电脑都操作:更改source.list源source.list在 /etc/apt 下,用 sudo gedit(或nano)更改。之后 sudo apt-getupdate 更新源文件。注:ubuntu16对应的源是清华大学的 否则ssh 无法启动注:一台从机中在更新时 出现lock的错误,通过ps –e|grepapt 发现aptd这个进程在占用apt-get端口,sudo kil...原创 2018-05-19 13:15:02 · 756 阅读 · 1 评论 -
机器学习之文本分类(附带训练集+数据集+所有代码)
我本次对4类文本进行分类((所有截图代码和数据集最后附带免费下载地址))主要步骤:1.各种读文件,写文件2.使用jieba分词将中文文本切割3.对处理之后的文本开始用TF-IDF算法进行单词权值的计算4.去掉停用词5.贝叶斯预测种类文本预处理:除去噪声,如:格式转换,去掉符号,整体规范化遍历的读取一个文件下的每个文本中文分词...原创 2018-05-20 14:59:10 · 72264 阅读 · 163 评论 -
机器学习之线性模型学习(python+所有代码)
参考文献:https://blog.csdn.net/zmdsjtu/article/details/52891654一·普通线性回归 线性模型(linear model)就是试图用一个线性组合来描述: 我们在其他很多的课程中肯定也接触到用层级结构或者高纬映...原创 2018-06-23 16:48:41 · 3820 阅读 · 7 评论 -
Python:用机器学习方法实现搜索引擎或者智能匹配系统
1.准备工作 在本文开始之前,我们首先是对原始的CSV表格的数据读取,然后分词,之后才开始进行智能匹配。csv的读取和分词都在之前的博客,所有的代码都是一个工程的。但是由于训练集是公司的数据,所以不方便放出,请谅解。但是对于训练集数据的描述CSV读取的博客中有提到。 csv的读取:https://blog.csdn.net/qq_28626909/article/deta...原创 2018-08-14 21:59:50 · 8799 阅读 · 10 评论 -
牛客网:打印所有不超过n(n>256)的,其平方具有对称性质的数。如11*11=121。
题目描述打印所有不超过n(n<256)的,其平方具有对称性质的数。如11*11=121。输入描述:无输出描述:每行一个数,表示对称平方数。代码:n = 256#print(10**2)top = 0for i in range(1,256): mul = i * i if mul > 10: #在两位数开始找 f...原创 2019-02-19 21:33:51 · 3801 阅读 · 0 评论 -
Python阿里面试题:给定一个非负整数数组,你最初位于数组的第一个位置。 数组中的每个元素代表你在该位置可以跳跃的最大长度。 你的目标是使用最少的跳跃次数到达数组的最后一个位置。
如题:给定一个非负整数数组,你最初位于数组的第一个位置。数组中的每个元素代表你在该位置可以跳跃的最大长度。你的目标是使用最少的跳跃次数到达数组的最后一个位置。示例:输入: [2,3,1,1,4]输出: 2解释: 跳到最后一个位置的最小跳跃数是 2。 从下标为 0 跳到下标为 1 的位置,跳 1 步,然后跳 3 步到达数组的最后一个位置。思路:每到一个位置...原创 2019-04-02 22:32:23 · 10570 阅读 · 7 评论 -
(已修改)机器学习之文本分类(附带训练集+数据集+所有代码)
本博客是我对之前博客进行的一些优化,对文件的处理,以及添加更多的注释让大家在NLP,文本分类等领域能够更快的让代码跑起来。原文链接:https://blog.csdn.net/qq_28626909/article/details/80382029关于TF-IDF,朴素贝叶斯,分词,停用词等前面的博客(原文链接开头以贴出)已经讲得非常详细了,这里就不啰嗦了,本博客是讲如何将代码跑起来,因为...原创 2019-05-29 15:01:20 · 17070 阅读 · 118 评论