实验
文章平均质量分 86
jialun0116
浙江工业大学
展开
-
Python大数据处理库 PySpark实战 总结四
Python大数据处理库 PySpark实战四ETL 实战实验数据来源数据加载观察资料选择、筛选与聚合机器学习实战实验数据来源数据加载统计描述清洗与变形Pipeline逻辑回归预测决策树预测ETL 实战实验数据来源https://groupllens.org/datasets/movielens/下载一个精简数据集。rating.csv 电影评分记录 :userId给电影评价的用户ID movieId 电影的ID rating 打分5分满分,timestamp时间戳数据加载from pysp原创 2021-06-19 22:10:04 · 1305 阅读 · 0 评论 -
简易版电商推荐系统开发实战Hive
简易版电商推荐系统开发实战数据来源数据转换Pandas->MySQL用Sqoop把数据导入Hive推荐算法Mahout安装itembase协同过滤算法进行推荐实验结果这是从Hive离线计算开发实战中看到小项目改造而来数据来源数据来源于天池大赛中的user_log_format1.csv文件用户行为表 user_infoDataFieldsDefinitionuser_id用户IDitem_id商品IDcat_id商品类别IDseller_i原创 2021-06-09 15:37:07 · 709 阅读 · 0 评论 -
蒸汽预测赛题——特征工程
蒸汽预测赛题之特征工程理论知识1. 导包并载入数据2. 异常值分析3. 最大值和最小值的归一化 MinMaxScaler4. 查看数据分布 kde5. 特征相关性 heatmap6. 特征降维 相关系数 > 0.17. PCA处理天池大赛比赛地址:链接理论知识特征工程处理流程去掉无用特征去除冗余特征 比如共线特征利用存在的特征、转换特征、内容中的特征生成新特征特征转换:数值化、类别转换、归一化特征处理 :异常值、最大值、最小值、缺失值特征处理总结类功能说明原创 2020-11-18 12:24:55 · 413 阅读 · 0 评论 -
工业蒸汽预测赛题——数据探索
蒸汽预测赛题之数据探索1. 导包2. 查看数据3. 画出所有特征字段的箱形图(boxplot)4. 直方图(displot)和Q-Q图(stats.proplot)5. 在训练集和测试集的KDE分布图(kdeplot)6. 线性回归关系图(regplot)7. 字段之间相关性(corr) 和 热力图(heatmap)8. 归一化处理9. Box-Cox变换(stats.boxcox)天池大赛比赛地址:链接1. 导包# 导入需要的包import numpy as npimport pandas as原创 2020-11-13 13:42:30 · 767 阅读 · 1 评论 -
基于pyspark的个性化电商广告推荐系统
个性化电商广告推荐系统1. 数据介绍2. 项目实现分析2.1 数据概况2.2 业务流程3. 预处理behavior_log数据集3.1 创建spark session3.2 读取文件并修改schema3.3 查看数据情况3.4 透视表操作3.5 把btag中的操作转化为打分3.6 根据用户对类目偏好打分训练ALS模型3.7 ALS模型预测 初步存储到redis中4. 分析处理raw_sample数据集4.1 加载数据并修改schema4.2 查看数据情况4.3 广告展示位进行热度编码4.4 根据时间戳划分原创 2020-11-05 19:29:29 · 1579 阅读 · 5 评论 -
数据分析之 假设检验
数据分析之 假设检验1. 检验总体的均值是否可靠——Z检验1.1 背景1.2 流程1.2.1 解决方法之 假设检验1.2.2 解决方法之 反证法1.2.3 悖论1.2.4 P-value与显著性水平1.3 假设检验 步骤 总结1.4 验证——Z检验1.4.1 代码1.5 单边拒绝域1.5.1 代码2. 单样本t检验2.1 背景2.2 步骤2.3 代码2.4 自由度3. 成对数据的t检验3.1 背景3.2 步骤3.3 代码4. 比率检验4.1 背景4.2 步骤4.3 代码5. A/B测试1. 检验总体的原创 2020-10-29 15:15:03 · 1747 阅读 · 0 评论 -
numpy中std()和pandas中std()的区别
numpy中std和pandas中std的区别偏差 (deviation): 样本中各数据比平均值大多少或小多少方差 (deviation): 将偏差进行平方再取平均标准差(standard deviation):标准差也即偏差的均方根值。也就是所有数减去平均值,它的平方和除以数的个数(或个数减一),再把所得值开根号,就是1/2次方,得到的数就是这组数的标准差。计算得出的默认标准偏差类型在 numpy 的 .std() 和 pandas 的 .std() 函数之间是不同的原创 2020-10-29 14:31:14 · 740 阅读 · 0 评论 -
Spark Streaming(组件、updateStateByKey、Windows)总结
Spark Streaming1. SparkStreaming 是什么2. 实时计算框架对比3. Spark Streaming组件4. Spark Streaming 编码实战(无状态)4.1 Spark Streaming编码步骤:4.2 利用Spark Streaming实现WordCount5. Spark Streaming的状态操作5.1 updateStateByKey5.2 案例:updateStateByKey5.3 Windows5.4 案例 windows1. SparkStrea原创 2020-10-26 18:35:22 · 438 阅读 · 0 评论 -
用spark中DataFrame对数据进行去重、缺失值处理、异常值处理
用spark中DataFrame对数据进行清洗1. 准备工作2. 数据去重3. 缺失值处理4. 异常值处理1. 准备工作配置环境import osfrom pyspark import SparkContext,SparkConffrom pyspark.sql import SparkSessionimport pyspark.sql.functions as fnJAVA_HOME = '/root/bigdata/jdk'PYSPARK_PYTHON = "/miniconda2/e原创 2020-10-20 14:53:07 · 9200 阅读 · 3 评论 -
Hive综合案例(根据用户行为以及文章标签筛选出用户最感兴趣的标签)
Hive综合案例背景需求相关数据重要函数流程分析和代码1.上传数据并创建表2. 分组查询每个用户的浏览记录3. 查看每篇文章的关键词4. 找到用户查看文章的关键词并统计频率5. 将用户查看的关键字和频率合并成 key:value形式并按用户聚合6.将上面聚合结果转为map放入表中7.从表中通过key查询map中的值背景内容推荐数据处理需求根据用户行为以及文章标签筛选出**用户最感兴趣(阅读最多)**的标签相关数据用户数据 user_action.txtuser_id, article原创 2020-10-19 14:11:02 · 648 阅读 · 0 评论 -
spark-core 实战 通过spark实现ip地址查询
spark-core 实战 通过spark实现ip地址查询需求日志信息介绍思路代码关键点需求在互联网中,我们经常会见到城市热点图这样的报表数据,例如在百度统计中,会统计今年的热门旅游城市、热门报考学校等,会将这样的信息显示在热点图中。因此,我们需要通过日志信息(运行商或者网站自己生成)和城市ip段信息来判断用户的ip段,统计热点经纬度。日志信息介绍涉及到两个文件ip.txt 和 20090121000132.394251.http.formatip.txt 字段介绍ip段起始位置 和 i原创 2020-10-16 18:10:44 · 468 阅读 · 0 评论 -
K-近邻算法 小实验facebook-v-predicting-check-ins
K-近邻算法 小实验facebook-v-predicting-check-ins数据来源:kaggle 的 facebook-v-predicting-check-ins获取数据集基本数据处理2.1 缩小数据范围特征2.2 选择时间特征2.3 去掉签到较少的地方2.4 确定特征值和目标值2.5 划分数据集特征工程 – 特征预处理(标准化)机器学习 knn+cv模型评估...原创 2020-09-04 10:53:34 · 402 阅读 · 0 评论 -
推荐系统之基于word2Vec的推荐案例
基于ml-latest-small的基于TF-IDF的特征提取词向量词向量用向量来表示词语可以表示语义层面的含义如果用word2vec模型创建的词向量,两个词向量相似度比较高,说明这两个词是近义词词向量作用把含义相近的判断转换成向量的相似度计算使用gensim Word2Vec模块训练词向量模型sentences = list(movie_profile[‘profile’].values) #准备所有用来训练词向量模型的文本model = gensim.models.Word2Vec(s原创 2020-08-10 16:25:33 · 1739 阅读 · 0 评论 -
推荐系统之基于TF-IDF的特征提取推荐案例
基于ml-latest-small的基于TF-IDF的特征提取基于内容推荐流程基于内容推荐流程建立物品画像数据来源:用户打tag 和 电影的分类值根据tf-idf的结果 为每部电影筛选出top-n(td-idf较大)个关键词电影id-关键词-关键词权重建立倒排索引通过关键词找到电影遍历 电影id-关键词-关键词权重 读取每一个关键词,用关键词作为key [(关键词对应电影id,tfidf)]作为value 保存到dict中用户画像看用户看过电影(打过分的),到电影的id-原创 2020-08-10 14:54:19 · 1654 阅读 · 0 评论 -
推荐系统之基于矩阵分解的CF算法实现案例
推荐系统之基于矩阵分解的CF算法实现案例数据来源:https://www.kaggle.com/shubhammehta21/movie-lens-small-latest-dataset源码详见:https://gitee.com/chenjialun16/recommendation_system原创 2020-08-06 13:13:23 · 249 阅读 · 0 评论 -
推荐系统之交替最小二乘法优化电影推荐案例
基于ml-latest-small的交替最小二乘法优化电影推荐案例交替最小二乘法优化、python原创 2020-08-06 10:12:27 · 513 阅读 · 0 评论 -
推荐系统之梯度下降电影推荐—案例
基于ml-latest-small的梯度下降baseline损失数据来源:movie-lens-small-latest-dataset推荐系统、baseline损失、实验、案例原创 2020-08-05 16:41:41 · 536 阅读 · 0 评论 -
推荐系统之协同过滤的电影推荐案例
基于协同过滤的电影推荐-案例数据来源:movie-lens-small-latest-dataset推荐系统、协同过滤、实验、案例原创 2020-08-05 10:58:20 · 854 阅读 · 0 评论 -
推荐系统之协同过滤算法代码实现(皮尔逊相关系数)
协同过滤推荐算法简单代码实现(皮尔逊相关系数)点击查看源码原创 2020-08-03 15:13:50 · 1047 阅读 · 0 评论 -
用python处理excel和word并生成工作报告
用python生成工作报告python处理excelpython绘制柱状图python处理word把execl中的数据整理写入word(小实验)实验结果原创 2020-07-14 23:31:29 · 1810 阅读 · 1 评论 -
python自动删除图片背景
python自动删除图片背景准备工作处理文件中所有图片带有简洁操作界面遇到问题成果展示准备工作这里删除图片背景的功能,选择调用网上写好的接口在removebg官网上注册账号点击我的账户,可以查看API密钥(每个月可以免费用50次)安装removebeg包,命令:pip3 install removebeg处理文件中所有图片from removebg import RemoveBgimport os''' 处理文件夹中所有的图片'''#第一个参数是你从removebg官网原创 2020-07-10 21:58:21 · 1080 阅读 · 0 评论