自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

原创 天池二手车价格预测-特征工程

天池二手车价格预测-特征工程特征工程(1)删除分布严重不平衡的特征(2)对预测值进行对数正态转化(3)针对日期特征进行分桶(按年、月)统计(4)针对两个日期字段进行间隔天数计算(5)构造品牌-价格的量化特征(最大、最小、平均值、方差)(6)对功率字段进行异常值检测(7)构造功率与价格的量化特征(8...

2020-03-28 16:24:12

阅读数 41

评论数 0

原创 天池二手车价格预测-EDA-数据探索性分析

EDA-数据探索性分析 1、加载数据 2、枚举特征分类统计 3、数字特征可视化 4、特征扩充 5、数字特征异常值检测 6、正态分布检测 7、对数转化图形对比 8、对数正态转化 9、数字特征异常值检测(正态变换后) 10、特征选择(根据数据分布) 11、特征选择(l岭回归) 12、特征选择(逐步回归...

2020-03-26 16:48:43

阅读数 36

评论数 0

原创 零基础入门数据挖掘 - 二手车交易价格预测-数据探索

零基础入门数据挖掘 - 二手车交易价格预测-part1 赛题理解 赛题以二手车市场为背景,要求根据所给的二手车预测二手汽车的交易价格,这是一个典型的回归问题 熟悉数据及评价标准 一 、赛题数据 该数据来自某交易平台的二手车交易记录,总数据量超过40w,包含31列变量信息,其中15列为匿名...

2020-03-21 18:21:21

阅读数 81

评论数 0

转载 python的可迭代对象与迭代器

1、可迭代对象Iterable 可迭代对象可直接用于for循环 直接作用于for循环的数据类型有以下几种: 一类是集合数据类型,如list、tuple、dict、set、str等; 一类是generator,包括生成器和带yield的generator function。 这些可以直接作用于for...

2020-03-18 09:47:25

阅读数 12

评论数 0

原创 python使用迭代器注意事项

问题背景 看了段大牛的开源代码: “”“ author='Kenneth Reitz', author_email='me@kennethreitz.org', url='https://github.com/kennethreitz/record...

2020-03-18 09:28:57

阅读数 17

评论数 0

转载 python3中with语句的用法

python3中with语句用法 (一)背景-用于文件处理 在实际的编码过程中,有时有一些任务,需要事先做一些设置,事后做一些清理,这时就需要python3 with出场了,with能够对这样的需求进行一个比较优雅的处理,最常用的例子就是对访问文件的处理。 1 初级文件处理 1 f = ...

2020-03-16 14:10:44

阅读数 27

评论数 0

转载 数据库多表联合查询附简单例子

多表联合检索: SQL语句: Select 用逗号隔开的一排列名 From 表名1,表名2, … Where 检索条件+连接条件 相当于语句 如果没有检索条件+连接条件,同理于笛卡尔积 θ连接之等值连接: 例如:按"001"号课成绩由高到低顺序显示所有学生的姓名(二表连...

2020-02-28 00:01:57

阅读数 79

评论数 0

原创 箱型图的数学意义

四分位数 四分位数(英语:Quartile)是统计学中分位数的一种,即把所有数值由小到大排列并分成四等份,处于三个分割点位置的数值就是四分位数。 概念 第一四分位数( {\displaystyle Q_{1}} Q_{1}),又称较小四分位数,等于该样本中所有数值由小到大排列后第25%的数字。 ...

2020-02-10 17:13:21

阅读数 73

评论数 0

转载 搞懂箱形图分析,快速识别异常值!

搞懂箱形图分析,快速识别异常值! 原创clairliu 最后发布于2018-01-31 15:31:44 阅读数 30749 收藏 展开 最近有很多用户说到了年终需要回顾这一年的工作,根据这一年的数据看看有没有异常的情况,那么哪种图能够清晰直观地展现出这一信息呢? 答案只有一个,那就是… 箱形图...

2020-02-10 16:44:35

阅读数 59

评论数 0

原创 防止粗心的背锅

场景 最近在做一个项目,每天忙的不可开交,忙着初验,人手不够,有很多模块已经开发完,前期已跟产品确认过开发的,甲方数据一直加密,导致初验无法达到理想效果,但其实后期甲方数据加密项目组的人都清楚,后面甩锅甩到开发的我身上,说我最后才提出来这个问题,我虽然怼回去了,但还是做了下反思和总结。 思考 (...

2019-12-28 17:08:42

阅读数 40

评论数 0

原创 工作中做的一个数据交付项目总结

标题项目的形式 依托第三方数据源,以及公司爬虫数据、政府合作数据,按甲方的需求字典清洗字段并进行定时推送。 项目的难点 (1)数据清洗,处理 (2)数据更新考虑到外部第三方的数据的问题,做定时轮询取数据做处理—通过接口; (3)数据交付的问题 –通过sftp服务交付; 用到的组件与开发技术点 P...

2019-12-28 16:29:13

阅读数 93

评论数 0

原创 转载——Spark Web UI 监控

参考:https://blog.csdn.net/zxl55/article/details/79572475 日常铺垫 本人最终用于大数据集测试的集群中包含4个节点,每个节点是一个worker,每个worker上启动一个Executor,其中Driver也跑在master上。每个Executor...

2019-08-08 22:46:23

阅读数 42

评论数 0

原创 XGBOOST学习资料

xgboost原理:https://blog.csdn.net/dream_catcher_10/article/details/51277138 GDBT原理:https://blog.csdn.net/dream_catcher_10/article/details/50417603 boos...

2019-05-04 10:41:20

阅读数 98

评论数 0

转载 python import 导入的路径问题

前言 Python相对导入与绝对导入,这两个概念是针对与两个包内(包含__init__.py文件的文件夹)的导入而言的。包内导入:就是包A的模块(.py文件)导入另一个包B的模块(py)文件。 命令行与pycharm运行是的区别: 命令行会按照下述方式搜索。 而pycharm则会自动创建搜索路径,...

2019-04-15 21:26:59

阅读数 146

评论数 3

转载 欢迎使用CSDN-markdown编辑器000

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数...

2019-04-15 21:06:23

阅读数 66

评论数 0

原创 2019-03-21 python导入包以及Python程序执行顺序理解

http://codingpy.com/article/python-import-101/ https://segmentfault.com/a/1190000009842139

2019-03-31 00:10:37

阅读数 81

评论数 0

原创 2019-3-20:pyspark程序运行报错:no module named XXX(本地pycharm没问题而线上cmd下运行有此问题)

(一)场景问题 1)我在本地pycharm项目分支下运行文件,运行方式是:先cd到项目根目录,然后再运行本地提交命令;现在把该部分代码打包上传到线上,直接在命令行运行,就会报no module named XXX错误; 本地目录: gd_data biz t14 sub clean_da...

2019-03-31 00:05:42

阅读数 729

评论数 2

原创 一切都只是工具,大数据天天学系列---2019-1-15:Python--迭代器,生成器,yield函数的作用

主要分两部分介绍: 迭代、迭代器、可迭代 生成器、yield 表达式 1. 迭代、迭代器、可迭代 (1)迭代概念:很多数据就是容器,里面包含很多其他类型的元素。实际使用容器时,我们需要逐个获取容器中的元素。逐个获取容器中的元素的过程就叫做迭代。 迭代demo: list_a = [1,2,3]...

2019-01-15 22:29:00

阅读数 120

评论数 1

原创 一切都只是工具,大数据天天学系列---2019-1-6:Python多进程Pool与Process全局变量区别,以及用Process实现Pool--part2

(1) 1.Pool使用全局变量的问题 问题简单描述就是无法使用可变的全局变量(比如for循环),可见如下代码示例: from multiprocessing import Pool # def multi_task_1(): # print(i, '|', glob...

2019-01-06 18:57:57

阅读数 1250

评论数 0

原创 一切都只是工具,大数据天天学系列---2019-1-6:Python多进程Pool与Process区别,以及用Process实现Pool--part1

Python多进程Pool与Process主要区别 (1)Process需要自己管理进程,起一个Process就是起一个新进程; (2)Pool是进程池,它可以开启固定数量的进程,然后将任务放到一个池子里,系统来调度多进程执行池子里的任务; Python中多进程主要是通过multiproces...

2019-01-06 18:16:22

阅读数 295

评论数 1

原创 一切都只是工具,大数据天天学系列---2019-1-3:python读取文本数据

总结 (1)推荐使用 with 语句操作文件 IO。 (2)如果文件较大,可以按字节读取或按行读取。 (3)使用文件迭代器进行逐行迭代。 1. python读取文本文件实现机制 读写文件是最常见的IO操作。Python内置了读写文件的函数. 读写文件前,我们先必须了解一下,在磁盘上读写文件的功能都...

2019-01-03 21:56:54

阅读数 87

评论数 0

原创 一切都只是工具,大数据天天学系列---2019-1-2:spark解析json数据

1. json数据格式–定义 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写。 2.json数据格式解编码(2.1,2.2两种方法) 2.1 json函数实现解编码:json.dumps及json.loads 函数 描述 ...

2019-01-02 22:12:10

阅读数 92

评论数 0

原创 认识cpu、核、进程与线程///学习sparkstreaming+kalfka

转载: 认识cpu、核、进程与线程:https://blog.csdn.net/zhengyshan/article/details/80641770 学习sparkstreaming+kalfka: https://colobu.com/2015/01/05/kafka-spark-str...

2018-10-11 21:34:55

阅读数 252

评论数 1

原创 Python查找当前文件路径

https://www.cnblogs.com/Zhanxueyou/p/6610053.html

2018-10-11 17:18:29

阅读数 1604

评论数 0

原创 连接10服务器//hadoop显示ConnectionrRefused怎么办?

参考:https://zhidao.baidu.com/question/1366015836087408219.html 输入hadoop fs -ls想查看hadoop上的文件却突然连接不上报如下错误: ls: Call From centos1/10.103.240.131 to cen...

2018-10-11 17:11:46

阅读数 289

评论数 0

原创 windows下安装pip,强制升级pip,安装tensorflow

python -m pip install -U –force-reinstall pip

2018-10-08 23:25:20

阅读数 201

评论数 1

原创 查看spark进程/区分pyspark和pandas的表的合并,pyspark是join,pandas是merge

命令: vim ~/.bashrc source ~/.bashrc ps aux | grep spark pkill -f "spark" sudo chown -R sc:sc spark-2.3.1-bin-hadoop2...

2018-10-08 23:25:06

阅读数 454

评论数 0

原创 解析数据踩过的坑

import sys from pyspark.sql.types import StructType, StringType, StructField reload(sys) sys.setdefaultencoding('utf8') # Path for ...

2018-10-08 23:24:51

阅读数 101

评论数 0

原创 spark官方文档入门学习

http://spark.apache.org/docs/latest/rdd-programming-guide.html (1)spark_submit传命令文件参数: –master –core –memory 等的参数设置; 包括一些api属性设置及运行环境设置; ...

2018-10-08 23:24:07

阅读数 178

评论数 0

原创 pyspark运行生存模型

参考:https://blog.csdn.net/luoganttcc/article/details/80618940 pyspark.ml.regression官方文档: http://spark.apache.org/docs/latest/api/python/_modules/pys...

2018-10-08 23:23:02

阅读数 206

评论数 0

原创 pyspark支持的分布式机器学习算法

参考:Spark之机器学习(Python版)(二)——分类

2018-10-08 22:24:27

阅读数 1281

评论数 0

原创 linux上学习pyspark运行程序的命令

2002 spark-submit --master spark://192.168.0.80:7077 /home/tsl/chenchangsha/test_spark_run_model/temp_1.py 2003 : java.lang.NullPointerException...

2018-10-08 21:50:12

阅读数 454

评论数 1

原创 python reload(sys)找不到,name 'reload' is not defined

参考:https://blog.csdn.net/x356982611/article/details/52538548 reload(sys) sys.setdefaultencoding(“utf-8”)12 在Python 3.x中不好使了 提示 name ‘reload’ is not d...

2018-10-08 21:47:36

阅读数 324

评论数 0

原创 pip安装pyspark报错

报错: Traceback (most recent call last): File "<string>", line 1, in <module> ...

2018-10-08 20:50:37

阅读数 1549

评论数 0

原创 pandas.core.frame.DataFrame 没有show()

df_pand = df.rdd.mapPartitions(_map_to_pandas).collect() 适用于小批量数据;

2018-09-30 17:17:29

阅读数 849

评论数 0

原创 pyspark.sql.dataframe.DataFrame 转换成 pandas.DataFrame

pyspark.sql.dataframe.DataFrame有自带的函数,.toPandas(); 下面是别人写的,但是.collect()那里会报错,用自带的toPandas()会报: Total size of serialized results of 14 tasks (1060.1 M...

2018-09-30 15:19:09

阅读数 867

评论数 0

原创 安装SPARK 环境变量设置

主要涉及到两个地方设置环境变量: 区分下两个变量针对的用户权限,适用范围; 还有pycharm下面针对uttest默认下面的environment的设置;添加SPARK_HOME,以及PYTHONPATH; 另外针对本地跑spark报keyERROR,os[‘SPARK_HOME’]如果不在代码中...

2018-09-30 00:37:55

阅读数 2952

评论数 0

原创 DataFrame的先转换成matrix,然后实现转置,再重命名列名跟索引

#################测试模型 save_model_path = os.path.join(prj_path, "shixin_cox_model.pkl") df = pd.read_csv('/home/sc/Downloads/...

2018-09-29 10:19:49

阅读数 670

评论数 0

转载 DataFrame的先转换成matrix,然后实现转置,再重命名列名跟索引(文件新的写法)

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数...

2018-09-29 10:18:56

阅读数 743

评论数 0

原创 windows10下安装anaconda,跑spark

https://superuser.com/questions/988505/how-to-search-and-install-package-in-anaconda-conda conda install 老是提示找不到对应安装包: 类似这样: conda install -c http...

2018-09-28 22:49:42

阅读数 335

评论数 0

提示
确定要删除当前文章?
取消 删除