机器学习
文章平均质量分 77
小菜鸡一号
这个作者很懒,什么都没留下…
展开
-
Spark数据处理与特征工程
sklearn在中小型数据集上,在工业界是在使用的xgboost、lightgbm在工业界的实用度非常的高工业界数据体量真的达到上亿或者十亿这样的规模用sklern处理起来是比较吃力的,可借助于大数据的工具,比如spark来解决现在可以用spark来做大数据上的数据处理,比如数据工程、监督学习、无监督学习模型的构建,只要计算资源够就OK。【大数据底层做分布式处理】注意:spark基于R...原创 2020-02-17 18:29:16 · 606 阅读 · 0 评论 -
sklearn与LightGBM配合使用
LightGBM建模,sklearn评估# coding: utf-8import lightgbm as lgbimport pandas as pdfrom sklearn.metrics import mean_squared_errorfrom sklearn.model_selection import GridSearchCV# 加载数据print('加载数据...')...原创 2020-02-17 16:41:10 · 7761 阅读 · 0 评论 -
LightGBM用法速查表
内置方式建模1.要把数据读取成Dataset格式2.lgb.train去训练# coding: utf-8import jsonimport lightgbm as lgbimport pandas as pdfrom sklearn.metrics import mean_squared_error# 加载数据集合print('加载数据...')df_train = pd...原创 2020-02-17 16:39:12 · 970 阅读 · 1 评论 -
预估器建模方式
1.Xgboost建模,sklearn评估2.网格搜索交叉验证找最优参数3.early-stop早停止4.特征重要度5.并行训练加速#预估器建模方式:sklearn与XGboost配合使用#xgboost建模,sklearn评估import pickleimport xgboost as xgbimport numpy as npfrom sklearn.model_sele...原创 2020-02-17 16:34:05 · 267 阅读 · 0 评论 -
Xgboost内置建模方式详解二
只用前n棵树进行预测#内置建模方式:交叉验证与高级功能#添加预处理的交叉验证,自定义损失函数和评估准则,#!/usr/bin/pythonimport warningswarnings.filterwarnings("ignore")import numpy as npimport pandas as pdimport pickleimport xgboost as xgbfr...原创 2020-02-17 13:50:36 · 199 阅读 · 0 评论 -
Xgboost内置建模方式详解一
内置建模方式的特点1.交叉验证2.添加预处理的交叉验证3.自定义损失函数与评估准则4.只用前n棵树预测#内置建模方式:交叉验证与高级功能#添加预处理的交叉验证,自定义损失函数和评估准则,#!/usr/bin/pythonimport warningswarnings.filterwarnings("ignore")import numpy as npimport pandas...原创 2020-02-17 13:49:29 · 379 阅读 · 0 评论 -
Xgboost预估器建模方式使用方法
与前两篇内置建模方式的不同点:预估器建模:初始化模型:xgb_classifier=xgb.XGBClassifier(参数)拟合模型:xgb_classifier.fit(x,y)使用模型预测:xgb_classifier.predict(test_x)内置方式建模:参数设定:param = {‘max_depth’:5, ‘eta’:0.1, ‘silent’:1, ...原创 2020-02-17 13:14:41 · 481 阅读 · 0 评论 -
Xgboost使用方法详解二
'''配合pandas DataFrame格式数据建模'''import pandas as pdimport numpy as npimport pickleimport xgboost as xgbfrom sklearn.model_selection import train_test_split#基本例子,从csv文件中读取数据,做二分类#用pandas读入数据dat...原创 2020-02-17 12:04:23 · 611 阅读 · 0 评论 -
Xgboost使用方法详解一
'''内置建模方式1.xgb.train训练方式2.DMatrix数据形态,不是DataFrame'''import numpy as npimport scipy.sparseimport pickleimport xgboost as xgbdtrain = xgb.DMatrix('data/agaricus.txt.train')dtest = xgb.DMatrix(...原创 2020-02-17 12:03:16 · 941 阅读 · 0 评论 -
Spark_DataFrame vs SQL
Spark DataFrame vs SQL 的小练习a.初始化Spark Sessionimport findsparkfindspark.init()from pyspark.sql import SparkSessionspark = SparkSession \ .builder \ .appName("Python Spark SQL") \ .con...原创 2020-01-05 14:46:37 · 130 阅读 · 0 评论 -
Spark_DataFrame
总览Spark SQL 是 Spark 处理结构化数据的一个模块, 与基础的 Spark RDD API 不同, Spark SQL 提供了查询结构化数据及计算结果等信息的接口.在内部, Spark SQL 使用这个额外的信息去执行额外的优化.有几种方式可以跟 Spark SQL 进行交互, 包括 SQL 和 Dataset API.当使用相同执行引擎进行计算时, 无论使用哪种 API / 语...原创 2020-01-05 14:36:08 · 120 阅读 · 0 评论 -
Spark_RDD的练习
1.在spark中用reduce计算10!用reduce()操作一个字符串,内容是前边练习中所哟以M开头的名字,list以逗哈分隔 。有一个很有用的操作,有时候我们需要重复使用某个RDD结果,但一遍遍重复计算显然是要开销的,所以我们可以通过一个叫cache()的操作把它杂事存储在内存中import numpy as npnumRDD = sc.parallelize(np.linesapc...原创 2020-01-05 12:03:03 · 364 阅读 · 0 评论 -
Spark_RDD
RDD弹性分布式数据集,就像Numpy array和Pandas Series,可以看作是一个有序的item集合,只不过这些item被分隔为多个partitions,分布在不同的机器上,1.请简述RDD的含义,并写出针对RDD的两类操作(transformation与action),每类下至少三种的操作。RDD(Resilient Distributed Datasets),弹性分布式数...原创 2020-01-04 13:06:48 · 145 阅读 · 0 评论 -
大数据发展
大数据vs人工智能人工智能需要有大数据支撑人工智能主要有三个分支:1.基于规则的人工智能;2.无规则,计算机读取大量数据,根据数据的统计、概率分析等方法,进行智能处理的人工智能;3.基于神经网络的深度学习。基于规则的人工智能,在计算机内根据规定的语法结构录入规则,用这些规则进行智能处理,缺乏灵活性,不适合实用化。因此,人工智能实际上的主流分支是后两者。而后两者都是通过“计算机读取大量...原创 2019-12-24 00:05:18 · 154 阅读 · 0 评论 -
python读写json文件
Json是一种轻量级的数据交换格式。1.json.dumps()和json.loads()是json格式处理函数(可以这么理解,json是字符串)json.dumps()函数 将 Python 对象编码成 JSON 字符串(字典–》字符串)【编码】json.loads()函数 将已编码的 JSON 字符串解码为 Python 对象(字符串----》字典)【解码】语法json.dum...原创 2019-12-20 10:12:56 · 175 阅读 · 0 评论 -
python统计消费kafka数据量
from pykafka import KafkaClientfrom pykafka.common import OffsetTypeimport datetimeimport pdb'''提升点: 1. 学会用pdb打断点调试 2. 学会利用datetime.timedelta()控制程序执行的时间长度'''def KafkaDownloader(host_, topic_...原创 2019-12-06 18:42:14 · 1220 阅读 · 0 评论 -
招聘分析
# 加载包import pandas as pd# 练习2 - 招聘分析 - 加载数据'''drop_duplicates:参数 subset: 列标签,可选 keep: {‘first’, ‘last’, False}, 默认值 ‘first’ first: 删除第一次出现的重复项。 last: 删除重复项,除了最后一次出现。 False: 删除所有重复项。 inpl...原创 2019-12-04 20:10:37 · 186 阅读 · 0 评论 -
总统大选
加载数据#加载包import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom pandas import Series, DataFrame#读取数resulr_df=pd.read_cse('data/2016-us-ge-by-county.csv')删除某列或者某行–用drop函数d...原创 2019-12-04 19:45:47 · 150 阅读 · 0 评论 -
画图
在这里插入图片描述原创 2019-12-03 21:23:55 · 116 阅读 · 0 评论 -
决策树与随机森林
决策数可以解决分类和回归问题原创 2019-12-02 20:04:59 · 116 阅读 · 0 评论 -
机器学习与回归类算法
线性回归(linear regression)逻辑回归(logistic regression):用于分类机器学习:1. 监督学习(有标签)a. 分类:根据数据样本上抽取的特征,判定其属于有限的类别【离线值】 > 辣鸡邮件识别 > 文本情感褒贬分析 > 图像内容识别 b.回归:根据数据样本上抽取出的特征,预测**连续值**结...原创 2019-12-01 21:39:59 · 315 阅读 · 0 评论 -
更多数据结构
字符串字符串变量定义s = “hello” 或者’hello’组合字符串的方式“+”号格式化符号通过下标获取指定位置字符string_name[index]切片string_name[起始:结束:步长]字符串方法文档添加链接描述字符串的方法巧用自动补全、使用dirislover():判断字符串是否为小写split():切分字符串...原创 2019-11-16 23:13:22 · 153 阅读 · 0 评论 -
python控制流
判断语句if条件判断if 条件: 逻辑代码else: 其他逻辑代码#多判断条件if 条件: 逻辑代码elif 条件: 逻辑代码else: 其他逻辑代码for循环for语法for 临时变量 in 序列: 序列中存在待处理元素则进入循环体执行代码执行流程每次循环判断for中的条件,从序列的零脚标开始,将序列中的元素赋值给临时变量,进入循环体执行代码,执行完之...原创 2019-11-13 22:33:00 · 109 阅读 · 0 评论 -
Python基础
安装PythonAnacondapython的全家桶,包含大量专门数据科学的库和软件分发版本Numpy、Pandas、Matplotlib..自带数据工作者常用的IDE工具spyder以及jupyter可设置不同环境,在不同的Python版本中切换IED:spyder、python的执行方法1.命令行执行python ****.pyIDEJupyter noteboo...原创 2019-11-10 23:11:19 · 191 阅读 · 0 评论 -
Python概述
@Python概述Python概述第一次写博客,希望之后可以一直坚持特点一种面向对象的解释型计算机程序设计语言具有丰富且强大的内置库和第三方库语法简介灵活开源、跨平台解释型:是指我们在使用python的过程中,先将用户编写的代码生成中间代码,然后再由一个解释器对中间代码进行执行,最终完成用户所编写的代码逻辑。与C语言这样编译型的语言是有区别的,省去了编译的过程。正是因为这种便捷使...原创 2019-11-10 23:10:56 · 120 阅读 · 0 评论