- 博客(59)
- 资源 (2)
- 收藏
- 关注
原创 如何往hive中导入txt文件
drop table if exists v_byronli_ind.dual_test;create table v_byronli_ind.dual_test(ecif_no string,name string,code string)row format delimited fields terminated by '\t'lines terminated by '\n'load date local inpath 'file://mnt/test.txt' overwrite into
2021-01-13 16:53:11 2056
原创 (5)两表各字段映射填充
需求:当前库里面的人物画像表(暂称表1)有不少空值,现在外部采购了一批数据(暂称表2),要求使用这批数据对库表进行映射填充;现状:库内表的建设初期就是从该外部机构购买的,后期本公司又新增了一些人物,外部机构也新增了一些人物,库内表的大致情况如下:我们发现有很多特征列都出现了空值,这时候可以用外部采购数据进行填充,充分探索和观察了库内数据的基本面貌之后制定了如下四种填充方式:性别,出生地填充规则:空值填充语言技能,获得证书:空值填充,非空值则判断是否已存在,若不存在则追加,使用"|"符号隔开姓名
2020-05-26 21:36:15 649
原创 (4)比较两个列表各字段的数据类型及空值数量
import pandas as pdimport numpy as npimport osos.listdir()['.ipynb_checkpoints', '比较两个列表各字段的数据类型及空值数量.ipynb', '表1.xlsx', '表2.xlsx']biao1 = pd.read_excel("./表1.xlsx")# 为了便于展示,特意将表2代号字段数据类型设定为strbiao2 = pd.read_excel("./表2.xlsx",converters={"代号":str}
2020-05-15 22:14:29 480
原创 (3)两列冗余数据清洗
import pandas as pdimport numpy as npimport osos.listdir()['.ipynb_checkpoints', '两列冗余数据清洗.ipynb', '人物画像.xlsx']renwu = pd.read_excel("./人物画像.xlsx")renwu需求:我们可以看到以上数据城市这个字段出现了信息冗余,需要将多余的国家信息清洗掉renwu["城市"] = renwu[["国家","城市"]].apply(lambda x:x[1]
2020-05-15 20:54:34 282
原创 (2)长间隔符文本的转换与读取
import pandas as pdimport numpy as npimport osos.listdir()['.ipynb_checkpoints', 'Untitled.ipynb', '文本数据.txt']wenben = pd.read_table("./文本数据.txt",sep="@",engine="python",encoding="utf8")wenben需求:我们可以看到,该数据读取出来的时候身边都出现了"|“符号,不够read_excel函数读取文本的时候
2020-05-15 20:17:14 321 1
原创 (1)单表实现多值合并操作
如下表需求:上表有多条数据实际上为同一个人,要求根据姓名把所有数据合并拼接,如有重复数据还需横向去重import pandas as pdimport numpy as npimport osos.listdir()['.ipynb_checkpoints', 'Untitled.ipynb', '人物画像.xlsx']renwu = pd.read_excel("./人物画像.xlsx")renwu# 设计拼接函数def pingjie(df): return "|"
2020-05-15 19:33:59 451 1
原创 统计分析进阶
一 数据特征分析1.1 分布分析研究数据的分布特征和分布类型,分定量数据、定性数据做分布分析一般需要做三个统计量:极差/频率分布/分组组距及组数import numpy as npimport pandas as pdimport matplotlib.pyplot as plt%matplotlib inline# 读取数据data = pd.read_csv("C:/Use...
2020-03-17 22:27:57 266
原创 利用Python进行文件读写
一 文件对象声明与基本操作1 路径的表示# 双斜杠path1 = "C:\\Users\\lizheying\\Desktop\\ziliao\\test.txt"# 反斜线path2 = "C:/Users/lizheying/Desktop/ziliao/text.txt"# 使用rpath3 = r"C:\Users\lizheying\Desktop\ziliao\tex...
2020-03-12 18:58:17 350
原创 数据清洗进阶(一)
一 创建数组arr3 = np.array([[1,2,3,4],[5,6,7,8],[9,10,11,12]])arr3array([[ 1, 2, 3, 4], [ 5, 6, 7, 8], [ 9, 10, 11, 12]])# 初始值,终止值,步长,左闭右开np.arange(1,10,1)array([1, 2, 3, 4, 5, 6...
2020-03-01 16:03:27 179
原创 基于RFM和K-Means的用户分群
在本项目中,我们基于用户购买数据(Transaction Data)做用户的分群,使用的方法一次是RFM模型和K-means算法。
2019-11-30 17:21:38 1305 2
原创 广告点击率预测(kaggle)
这个项目的主要的目的是通过给定的广告信息和用户信息来预测一个广告被点击与否。 如果广告有很大概率被点击就展示广告,如果概率低,就不展示。 因为如果广告没有被点击,对双方(广告主、平台)来讲都没有好处。所以预测这个概率非常重要,也是此项目的目标。
2019-11-29 07:14:01 6694 8
原创 基于内容的推荐
1 推荐系统概论推荐系统可以分为三个阶段人类手工生成的推荐系统早期的门户网站,里面的内容都是由网站编辑手工选择的,这也是一种原始的推荐系统简单的聚合推荐系统例如KTV里面的歌曲点播排行榜,畅销书排行榜,电影票房排行榜,按照物品的时间性质推荐,例如最近上架的新品推荐真正的个性化,千人千面的推荐系统Amazon的商品推荐,Netflix的电影推荐...
2019-11-29 07:12:51 141
原创 层次聚类
1 层次聚类与距离计算通过层次聚类我们可以对原有样本数据做层次上的划分。相反,K-Means算法本身是扁平化的,不具备任何层次的概念。K-Means的不足之处:使用K-Means需要指定K值对于不规则的样本,K-Means算法的表现也会比较差K-Means算法在聚类时不能捕获层次关系层次聚类算法的好处就是通过算法自动给数据做分层,数据之间的层次关系一目了然对于层次聚类,通常有两种...
2019-11-28 20:50:00 191
原创 sql笔记(查询练习与外键约束)
1 创建数据表创建"京东"数据库mysql> create database jing_dong charset=utf8;Query OK, 1 row affected (0.01 sec)使用"京东"数据库mysql> use jing_dong;Database changed创建一个商品goods数据表mysql> create table good...
2019-11-28 13:02:30 220
原创 sql笔记(数据库的备份和恢复)
一、图形界面操作转储sql文件新建数据库运行sql文件通过以上三个操作即可完成数据库的迁移二、终端备份需要退出2.1 Linux环境下数据库的备份lzying@lzying-virtual-machine:~$ mysqldump -uroot -p Python1806 > ~/Desktop/Python1806.sqlEnter password: 数据库的...
2019-11-25 21:34:46 140 2
原创 sql笔记(自关联查询和子查询)
先申明一下,网上下载的数据中没有包含港澳台的,可能是该平台业务没有触及到港澳台地区,港澳台是中国的固有领土神圣不可侵犯!
2019-11-25 18:47:17 686
原创 机器学习笔记
1.线性分类器与非线性分类器的区别以及优劣如果模型是参数的线性函数,并且存在线性分类面,那么就是线性分类器,否则不是。常见的线性分类器有:LR,贝叶斯分类,单层感知机、线性回归常见的非线性分类器:决策树、RF、GBDT、多层感知机SVM两种都有(看线性核还是高斯核)线性分类器速度快、编程方便,但是可能拟合效果不会很好非线性分类器编程复杂,但是效果拟合能力强...
2019-11-10 15:40:59 141
原创 sql笔记(数据库的设计)
一、三范式经过研究和对使用中问题的总结,对于设计数据库提出了一些规范。这些规范被称为范式(Normal Form)目前有迹可循的共有8种范式,一般需要遵守三范式即可第一范式(1NF):强调的是列的原子性,即列不能够再分成其他几列...
2019-11-06 22:12:14 247
原创 信用卡欺诈检测模型
拿到的数据是持卡人两天内的信用卡交易数据,要解决的问题是预测持卡人是否会发生信用卡被盗刷.其结果只有两种可能,被盗刷或者不被盗刷,这份数据是有目标列的,也就是说这是一个监督学习的场景,并且是一个二元分类问题,所以本项目可以选用逻辑斯蒂回归(Logistic Regression)。
2019-10-28 21:34:09 2933
原创 集成模型之提升(Boosting)
首先回顾一下什么叫Bagging? 比如在随机森林里,针对于样本数据,我们同时训练了多棵决策树,然后让这些决策树通过投票的方式来参与预测。这种方式的好处也讲过,可以很好地提升模型的稳定性。 其实任意的集成模型只要训练得合理都具备这种特性的,Boosting也不例外。...
2019-10-28 18:59:08 274
原创 Python数据可视化
l.离散型变量的可视化1.1 饼图1.1.1 matplotlib模块下面以"芝麻信用"失信用户数据为例(数据来源于财新网),分析近300万失信人群的学历分布# 导入第三方模块import matplotlib.pyplot as plt%matplotlib inline# 构造数据edu = [0.2515,0.3724,0.3336,0.0368,0.0057]labels...
2019-10-23 11:26:10 1012 29
原创 基于集成模型的股价预测
在本次项目中我主要以技术指标(technical indicator)作为特征。每个技术指标的提取都是通过长期的经验而获得的,而且持续有人提出更新的指标。可以参考一下网上的一些资料:http://www.yingjia360.com/gongshi/,里面有每个指标的大概思想以及指标的计算公式。所以呢,针对于每一只股票,我们可以基于它过去一段时间的行情数据来计算各式各样的指标,然后把指标结果...
2019-10-20 09:08:21 552
原创 Tushare简介
量化投资,也就是通过数量化的方式和模型去做投资决策。量化投资是一个很庞大的领域,从量化投资开始至今,衍生出了大量的投资理念和策略。纵观国内外量化投资现状,国内其实刚刚起步,还有很长的路要走,这里包括数据的完整性、透明性等。 国内目前散户(个人投资者)很多,但比如像美国这些欧美国家,绝大部分是以机构投资者为主的,而且他们很多都在使用量化投资技术。...
2019-10-17 22:50:15 692
原创 kaggle小项目-员工离职预测
数据来源与背景数据来源:https://www.kaggle.com/jiangzuo/hr-comma-sep/version/1数据背景: 该数据集是指某公司员工的离职数据, 其包含14999个样本以及10个特征, 这10个特征分别为: 员工对公司满意度, 最新考核评估, 项目数, 平均每月工作时长, 工作年限, 是否出现工作事故, 是否离职, 过去5年是否升职, 岗位, 薪资水平.im...
2019-10-17 19:32:19 1815
原创 集成模型之随机森林
一种最实用而且最有效的模型 - ”集成模型(ensemble model)” 对于几乎所有的分类问题(除了图像识别,因为对于图像识别问题,目前深度学习是标配),集成模型成为了我们的首选。...
2019-10-16 14:54:08 416
原创 决策树
在所有的机器学习模型中,决策树是最贴近咱们生活的!从数据中学习决策树,需要学习三样东西:树的形状每一个决策的阈值θ叶节点的值一棵决策树也具有大量的参数,但树本身是具有结构的。结构的学习也叫作Structured Prediction,因为这种问题不像之前讨论的比如回归问题只需要预测一个值就可以了,而是同时也要学出一种具体的结构。结构的学习一般来说都很难,很多都是NP-hard问题。...
2019-10-16 07:16:35 339
原创 文本表示与tf-idf
文本本身属于非结构化数据,而且我们要知道非结构化数据是不能直接作为模型的输入的。如何把一个单词表示成向量?第一种,也是最简单的表示法叫作独热编码的表示。词典:[机器,学习,有,意思,人工智能,是,未来]每个单词的表示:机器:(1,0,0,0,0,0,0)学习:(0,1,0,0,0,0,0)意思:(0,0,0,1,0,0,0)未来:(0,0,0,0,0,0,1)单词的表示了解完了,...
2019-10-15 16:45:21 458
原创 文本预处理技术
在本节我将搭建一个情感分析系统,它是文本领域最为经典的项目之一,在各行各业中有着广泛的应用。具体的源代码将放在我的项目实战专栏。情感分析问题本身是,给定一个文本并输出它的情感值,情感值无非是正面、负面或者中性。我们希望通过使用一种算法去识别一个文本的情感,这个问题本身属于文本分类问题。 如果只是正面或者负面,就是二分类问题;但如果是正面、负面和中性,则是三分类问题。情感分析的场景非常多:量...
2019-10-14 19:47:34 553
原创 生成模型与判别模型
生成模型指的就是一种可以用来生成数据或者样本的模型。曾经有没有想过能否让机器写程序? 能不能让机器学会画画? 能否让机器给自己编一个曲子? 这就是生成模型可以做的事情,无非就是效果上能不能达到要求罢了。训练一个生成模型不仅可以用来完成识别任务,也可以生成一些样本,包括图片、文章、代码、视频、音频等等。虽然生成这些数据本身具有很大挑战,但至少从理论来讲是一条可行的道路。判别模型主要用来判别样本...
2019-10-14 19:36:09 162
原创 基于多项式贝叶斯的垃圾短信识别
import pandas as pdimport numpy as npimport matplotlib.pyplot as plt%matplotlib inline# 读取文件df = pd.read_table("./SMSSpamCollection",header=None)df.head()每一列都是一个特征值(文件随便搜垃圾短信数据集都能下载得到)# 重命名...
2019-10-13 12:26:08 362
原创 网格搜索与贝叶斯优化
对于超参数的搜索,最常用的方法叫作网格搜索 (Grid Search),就是在可选的空间里,把每一种可能性逐一去尝试,也是工业界里最常用的方法。
2019-10-09 07:27:10 1503
原创 特征选择技术
特征选择技术是建模过程中最核心的部分,因为不一定所有的特征都有效,而且特征里包含的噪声也会影响着模型的效果。所以,最直接的方式就是:在建模前做一次特征选择,只保留有价值的特征。特诊选择的几种常见方法:...
2019-10-07 14:26:03 404
原创 精确率、准确率、召回率与F1-Score
TP: Ture Positive 把正的判断为正的数目 True Positive,判断正确,且判为了正,即正的预测为正的。FN: False Negative 把正的错判为负的数目 False Negative,判断错误,且判为了负,即把正的判为了负的FP: False Positive 把负的错判为正的数目 False Positive, 判断错误,且判为了正,即把负的判为了正的TN:...
2019-10-07 14:22:56 520
原创 模型的泛化能力、过拟合以及正则
为了构建一个泛化能力很强的模型,我们需要做几项关键的事情:选择正确的数据选择合理的模型选择合适的优化算法避免模型的过拟合第一、需要正确的数据。我们不能期待使用一个错误的数据来构建一个泛化能力强的模型。比如数据里包含了大量的噪声,这很难让我们训练出有效模型出来。第二、需要选择合适的模型。比如图像识别,我们都知道CNN是最合适的模型; 对于构建评分卡,可能集成模型是比较合适的。这里没有...
2019-10-02 20:26:00 1515
原创 逻辑回归的目标函数
任何一个分类问题其实都可以使用逻辑回归来解决。至少,逻辑回归是一个非常靠谱的基准(Baseline)。**在设计模型阶段我们首先试图通过简单的方法来快速得到答案,这种方法所提供的结果可以认为是基准。**之后在这个基准的前提下,再通过一些优化手段来不断提升系统的性能。...
2019-09-30 20:19:09 3713 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人