大数据与机器学习
文章平均质量分 79
本人学习大数据和机器学习的一点心得和笔记,喜欢的话,可以撩我哦。
嘿哈哈哈
人生就像一场演出,不到谢幕永远不知道自己有多精彩。
展开
-
Time Series
【代码】Time Series。原创 2024-04-18 00:01:10 · 993 阅读 · 1 评论 -
Intro and Intermediate Machine Learning
n_jobs- fit:- eval_set。原创 2024-04-06 10:41:15 · 856 阅读 · 0 评论 -
Feature Engineering
【代码】Feature Engineering。原创 2024-03-31 15:49:29 · 744 阅读 · 0 评论 -
Difference between Apache parquet and Apache arrow
Parquet is a columnar file format for data serialization. Reading a Parquet file requires decompressing and decoding its contents into some kind of in-memory data structure. It is designed to be space/IO-efficient at the expense of CPU utilization for deco原创 2022-12-19 20:00:00 · 300 阅读 · 0 评论 -
读书笔记:《Python 和 Dask 数据科学》
相关性不意味着因果关系。原创 2022-11-21 18:30:00 · 551 阅读 · 0 评论 -
机器学习比赛(ATEC)经验帖
文章目录@[TOC]数据分析基础分析缺失值分析详细分析数据处理特征和标签分离去除无效特征(只有单一值)处理缺失值(xgboost 无法处理缺失值,lightGBM 可以)去除离群点归一化和标准化数据集拆分特征工程模型选择(回归 or 分类)模型调优附录:Bert & 深度学习附录:黑技巧附录:资料存档附录:rank 代码数据分析基础分析import pandas as pdraw_data = pd.read_json(train_data_path,encoding='utf-8',lin原创 2021-11-08 18:36:24 · 1833 阅读 · 0 评论 -
玻尔兹曼机
玻尔兹曼机玻尔兹曼机的网络模型与BP神经网络的结构没有什么区别,只是训练的方式不太一样。注:本文中用到的Python及其模块安装教程参见1868年,奥地利物理学家路德维希·玻尔兹曼(Ludwig Edward Boltzmann)在研究气体热平衡统计力学中给出一个玻尔兹曼因子:e−EikBTe−EikBT\LARGE e^{-\frac{E_i}{k_BT}}其中,e是自然...原创 2018-06-20 13:50:49 · 1989 阅读 · 0 评论 -
BP神经网络 简单介绍
BP神经网络BP神经网络是指误差逆传播算法训练的多层前馈网络。如下图为两层两层的BP神经网络(只有隐含层和输出层是参与计算和权值调整的节点层)。图1:两层的BP神经网络注:本文中用到的Python及其模块安装教程参见结构和原理在“单细胞”的神经网络里,实际上只有一层,即最后的输出层。在上图中有两层,第一层每个节点的输入都是一样的,都是x1,x2,x3……xn...原创 2018-06-20 13:48:16 · 8751 阅读 · 0 评论 -
人工神经网络 简单介绍
人脑是人们到目前为止发现的,最令人叹为观止的信息处理系统了。人脑在加减乘除的计算速度方面可能赶不上很多单片机,但是在很多特殊场景的运算中却是高级计算机无法比拟的,如模式识别(声音识别,图像识别)。当人们意识到人脑的工作方式与数字计算机有着极大不同时,人们就逐渐开始研究“人工神经网络(Artificial Neural Network,ANN)”,希望能够从仿生学的角度给这种研究带来新的动力。...原创 2018-06-20 13:48:03 · 4526 阅读 · 0 评论 -
大数据学习路线
大数据学习路线java(Java se,javaweb) Linux(shell,高并发架构,lucene,solr) Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume) 机器学习(R,mahout) Storm(Storm,kafka,redis) Spark(scala,spark,spark c...转载 2018-06-20 13:47:15 · 280 阅读 · 0 评论 -
大数据与机器学习 基础篇 推荐算法
推荐算法推荐系统作为现在众多电商系统,内容分发系统等网站的必要子系统,越来越受到运营者的重视。推荐系统核心要解决的问题是提高转化率,也就是经过分析,要猜测某一个用户更喜欢什么商品,更可能购买什么商品,或者更喜欢哪些歌曲,文章,在系统中要进行适当形式的推荐,如页面飘窗,营销邮件,短信息等。注:[本文中用到的Python及其模块安装教程参见] (https://blog.csdn.net/q...原创 2018-05-28 14:01:26 · 1843 阅读 · 0 评论 -
大数据与机器学习 基础篇 遗传算法
遗传算法遗传算法(Genetic Algorithm)与其说是一个算法,不如说是一种处理问题的思想方式更为恰当,因为遗传算法整个体系都是在说对于一种问题处理的思路和原则,而不是一个具体的代码编写过程。注:本文中用到的Python及其模块安装教程参见算法过程遗传算法是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法。关键步骤如下:基因编码。...原创 2018-04-22 23:21:48 · 3264 阅读 · 0 评论 -
大数据与机器学习 基础篇 关联分析
关联规则是人类在认识客观事物中形成的一种认知模式。这种关联规则在人的认知里与反射类似。如在小时候不小心被针扎到,会有痛感,这样针刺和痛感就在大脑里有了这种关联。这就是人在认识事物的过程中在认知中所建立的关联规则,即通过与客观事件互动发现事物之间存在的依赖或因果关系。注:本文中用到的Python及其模块安装教程参见关联分析这里的关联分析就是尝试在数据中发现依赖或者因果关系的方法。这其...原创 2018-04-22 23:21:37 · 3986 阅读 · 0 评论 -
大数据与机器学习 基础篇 分类 支持向量机SVM
分类算法是机器学习中的一个重点,也是人们常说的“有监督的学习”。这是一种利用一系列已知类别的样本来对模型进行训练调整分类器的参数,使其达到所要求性能的过程,也成为监督训练或有教师学习。注:本文中用到的Python及其模块安装教程参见支持向量机SVM支持向量机SVM是一种比较抽象的算法概念,全称是Support Vector Machine,它可以用来做模式识别,分类或者回归的机...原创 2018-04-18 20:13:12 · 1989 阅读 · 0 评论 -
大数据与机器学习 基础篇 分类 隐马尔可夫模型
分类算法是机器学习中的一个重点,也是人们常说的“有监督的学习”。这是一种利用一系列已知类别的样本来对模型进行训练调整分类器的参数,使其达到所要求性能的过程,也成为监督训练或有教师学习。注:本文中用到的Python及其模块安装教程参见隐马尔可夫模型隐马尔可夫模型(Hidden Markov Model,HMM)最初由L. E. Baum发表在20世纪70年代一系列的统计学论文中,随后...原创 2018-04-18 20:13:07 · 2500 阅读 · 0 评论 -
大数据与机器学习 基础篇 分类 决策树
分类算法是机器学习中的一个重点,也是人们常说的“有监督的学习”。这是一种利用一系列已知类别的样本来对模型进行训练调整分类器的参数,使其达到所要求性能的过程,也成为监督训练或有教师学习。注:本文中用到的Python及其模块安装教程参见决策树决策树是分类时第一种常用的方式,这种方式几乎可以无师自通。下面举一个例子: 假如某大龄女青年在相亲网站上进行海选,因为资源太多而自己精...原创 2018-04-18 20:13:00 · 1797 阅读 · 0 评论 -
大数据与机器学习 基础篇 分类 朴素贝叶斯
分类算法是机器学习中的一个重点,也是人们常说的“有监督的学习”。这是一种利用一系列已知类别的样本来对模型进行训练调整分类器的参数,使其达到所要求性能的过程,也成为监督训练或有教师学习。注:本文中用到的Python及其模块安装教程参见朴素贝叶斯贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。贝叶斯决策理论方法是统计模型决策中的一个基本方法,基本思想如下:已知类条件概率参...原创 2018-04-18 20:12:53 · 686 阅读 · 0 评论 -
大数据与机器学习 基础篇 聚类
聚类(Clustering)指的是一种学习方式,即把物理或抽象对象的集合分组为由彼此类似的对象组成的多个类的分析过程。注:本文中用到的Python及其模块安装教程参见K-Means算法在聚类中K-Means算法是很常用的一个算法,也是基于向量距离来做聚类。算法步骤如下:从n个向量对象中选择任意k个向量作为初始聚类中心。根据在步骤1中设置的k个向量(中心对象向量),计算每...原创 2018-04-12 23:02:44 · 3606 阅读 · 7 评论 -
大数据与机器学习 基础篇 回归
回归,Regression,是一种归纳的思想——当看到大量的事实所呈现的样态,推断出原因是如的,当看到大量的数字对(pair)是某种样态,推断出它们之间蕴含的关系是如何。注:本文中用到的Python及其模块安装教程参见线性回归 线性回归是利用数理统计学中的回归分析来确定两种或两种以上变量间相互依赖的定量关系的 一种统计分析方法。其表达形式如下:y=ax+b+ey...原创 2018-04-12 23:02:35 · 852 阅读 · 0 评论 -
大数据与机器学习 入门篇
注:本文中用到的Python及其模块安装教程参见大数据产业概述 数据生命周期中的环节Created with Raphaël 2.1.2数据收集数据储存数据建模数据分析数据变现什么是数据? 数据是承载一定的信息的符号。什么是信息?1 信息是用来消除随机不定性的东西。数学基础:统计与分布 加和值∑ni=0Xi∑i=0...原创 2018-04-12 23:02:25 · 1061 阅读 · 0 评论