大数据
文章平均质量分 64
柯努力
这个作者很懒,什么都没留下…
展开
-
第五章 关联分析-apriori算法知识点详细总结
关联分析及apriori算法代码实现原创 2022-06-14 18:13:32 · 734 阅读 · 1 评论 -
python 基本语法numpy库使用
1、np.concatenate : 数组拼接例如: np.concatenate([[1,2,3],[4,5,6]],axis=0) # 默认情况下,axis=0可以不写# out: array([1, 2, 3, 4, 5, 6])2、np.diff : 计算离散差值例如:np.diff([2,4,1,5,6])# Out[5]: array([ 2, -3, 4, 1])...原创 2021-09-01 15:08:00 · 171 阅读 · 0 评论 -
python 计算idf 自定义逆向文件频率IDF
python3jieba分词代码如下:import jiebaimport jieba.analyseimport mathimport pandas as pdimport os#获取停用词stopwords_path = 'data/stopword.txt'stopwords_list = [line.strip() for line in open(stopwords_path,'r',encoding='utf-8').readlines() ]# 获取数据d原创 2021-09-01 14:39:35 · 404 阅读 · 0 评论 -
第一章 分类模型-逻辑回归知识点详细总结
系列文章目录第一章 Python 逻辑回归--分类目录系列文章目录第一章 Python 逻辑回归--分类前言一、逻辑回归简介二、基本假设三、损失函数四、求解参数方法五、应用逻辑回归的目的六、应用领域七、逻辑回归模型参数说明八、逻辑回归优缺点前言本章节内容主要介绍逻辑回归,包括逻辑回归简介、逻辑回归基本假设、逻辑回归损失函数、逻辑回归优化方法、逻辑回归参数说明并附上部分代码、逻辑回归优缺点。一、逻辑回归简介简单介绍一下逻辑回归...原创 2021-03-17 13:54:16 · 1703 阅读 · 0 评论 -
python连接mysql数据库
一、安装pymysql安装方式: pip install pymysql二、python连接mysql环境:linux, python3.6#os.environ['NLS_LANG'] = 'AMERICAN_AMERICA.AL32UTF8'import pymysqlconn= pymysql.connect(host=host,user=user,password...原创 2020-04-27 14:18:15 · 189 阅读 · 0 评论 -
python 连接hive数据库
一、安装hivelinux 环境,Anaconda3 python3.6安装方式:pip install pyhive 或是 conda install pyhive通常会少些包报错,例如:ModuleNotFoundError: No module named 'thrift'ModuleNotFoundError: No module named 'past' (futur...原创 2020-04-27 14:02:39 · 7990 阅读 · 0 评论 -
Hadoop IDE开发环境配置(Eclipse配置)
ü 安装eclipseü 下载 hadoop-eclipse-plugin-2.6.0.jarü 放在 Eclipse的plugins目录下 1. 若安装hadoop插件成功,打开eclipse, 打开【Windows】—>【Preferences】后,在窗口左侧会有Hadoop Map/Reduce选项,点击此选项,在窗口右侧设置hadoop安装路径,然后点击【OK】。2....原创 2018-06-26 10:01:08 · 853 阅读 · 0 评论 -
hadoop MapReduce 实战(java):单词计数
hadoop MapReduce 实战(java):单词计数点击【File】—>【Project】,选择【Map/ReduceProject】,输入项目名称test,一直回车。在WordCount项目里新建class,名称为WordCount,代码如下:package test; import java.io.IOException; import org.apache....原创 2018-06-26 15:39:40 · 578 阅读 · 0 评论