大数据
穿裤衩的文叔
这个作者很懒,什么都没留下…
展开
-
笔记整合三:fastText原理剖析
一、逻辑回归1.1 从线性回归到逻辑回归 线性回归的模型求出的是输出特征向量与输入样本矩阵X之间得线性关系系数K,即我们的Y是连续的,假设我们想要Y离散的话,那么思路可以为对这个Y在做一次函数,由此得到一个 分类函数。 逻辑回归即对线性回归的结果做了一个sigmoid函数,将其结果整合到了[0,1]中,由此得到一个分类函数。1.2 逻辑回归 逻辑回归本质上是线性回归,只是在特征到结果的映射中加入了一层逻辑函数g(z),即先把特征线性求和,然后使用...原创 2020-08-20 14:24:44 · 280 阅读 · 0 评论 -
笔记二:由决策树到孤立森林
一、决策树 决策树既可以作为分类算法,也可以作为回归算法,同时,也适合集成学习,譬如随机森林。当我们平时在敲各种if,elif,else的时候,其实已经与用到了决策树的思想,并且,其关键在于,需要考虑哪种条件特征在前,哪种条件在后这样做出的决策过程为优。 就决策过程的选择而言,目前一共有三种,按先后顺序为:ID3 ====> C4.5 ====> CART,其中,ID3算法与C4.5可支持分类模型,采用了多叉树的树形结构,其特征选择分别为信息增益...原创 2020-08-17 09:35:00 · 525 阅读 · 0 评论 -
笔记整合一:由线性回归到逻辑回归
文章目录一、相关概念一、相关概念1、什么是线性回归原创 2020-06-22 17:45:14 · 805 阅读 · 0 评论 -
hive数据同步(sqoop :Mysql ==>Hive,hive put 文件到hive)
一、Sqoop同步mysql数据到hive:假设我们在Hive里新建了一张测试表info_test,该表对应mysql 数据库中info_test: CREATE TABLE info_test(id BIGINT,uid INT, name STRING, tel STRING, ) row format delimited fields terminated by '~...原创 2018-05-31 11:57:34 · 1396 阅读 · 0 评论 -
Scala+Spark:对文件进行滤重
需求来源:有俩文件,里面存着很多公司信息,但是有重复的,由于数据量太大,因此,决定写个小脚本,用spark跑一下先看一下文件格式,origin为原始公司信息数据,spider为爬虫抓取的数据整体逻辑:文件求并集 ==> map 对公司名做hash用以做索引 ==> 根据公司名的hash值做groupby,取首位数据 ==> 保存文件1、主文件:2、工具包:processinfo:...原创 2018-06-14 11:20:52 · 1522 阅读 · 0 评论 -
python3.6 通过pyhdfs操作HDFS
一、安装pip install pyhdfs二、链接:import pyhdfsfs = pyhdfs.HdfsClient('192.168.***.**:50070')三、操作:import pyhdfsclass PackageHdfs(): def __init__(self): self.fs = pyhdfs.HdfsClient...原创 2018-07-30 15:00:06 · 5371 阅读 · 0 评论