自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

羽化成蝶

用生命之剑去穿破茧

  • 博客(58)
  • 资源 (11)
  • 收藏
  • 关注

转载 centos7 安装Mariadb

https://www.cnblogs.com/yhongji/p/9783065.html

2020-09-09 15:12:15 107

转载 WARN TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure

1:遇到这个问题是在启动bin/spark-shell以后,然后呢,执行spark实现wordcount的例子的时候出现错误了,如:scala> sc.textFile("hdfs://slaver1:9000/hello.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _).collect执行上面操作之前我是这样启动我...

2019-06-06 16:37:01 1321 1

原创 jupyter notebook不能选择虚拟环境的解决方法

今天使用dlib没有py37版本,因此创建了Version_36虚拟环境。但jupyter notebook默认的内核找不到新建的虚拟环境,解决方法是需要安装两个包:× ipykernel× nb_conda安装完成后效果如下:...

2019-04-01 16:36:27 1466

原创 【机器学习业务篇】数据科学家的武器库

数据科学是一个发现和解释数据中的模式,并用于解决问题的过程。这个过程实际上就是个劳动过程。在数据科学中有三个劳动对象,分别为数据、信息、知识,最终的产出品为决策和行为。数据科学的运用场景:圆的上半部分主要用于数据挖掘类的,下半部分主要用户描述性统计和统计分析的方法数据科学家是一个团队,一般有三个角色数据集市指的是从数据仓库中提取的某个主题或针对某个活动的数据...

2019-03-01 17:51:14 285

原创 【机器学习小案例篇】根据客户类型制定营销策略

from pyspark.sql import SparkSessionimport pandas as pdfrom sklearn import preprocessingIn[7]:#创建SparkSessionspark = SparkSession.builder \ .master("local") \ .appName("Ma...

2019-03-01 13:17:42 352

原创 【机器学习大数据篇】对企业架构,Spark,HIVE,RDD,Spark sql深度透彻了解

传统的方式用的是spark+RDD新的方式是用DataFrame做新的案例,python与spark相结合,做分析范式已经普及开来了架构详解:最底层的是数据的导入,导入之前是各种形态的,一类是orcale,mysql...,另一类是csv,txt...SQOOP是导入结构化数据的,FLUME,KAFKA是导入流式数据的数据导入后,紧接着就是存储,目前存储有三个模块,HD...

2019-02-28 19:01:18 477

原创 【机器学习大数据篇】spark2.x+python精华实战课程

资料科学:从大数据中汲取知识,是用有效率以及智能的方式处理巨量资料的科学为什么需要资料科学?1.企业意识到资料的重要性2.资料收集越来越多3.数量越来越大和过去相比分析的差异:效率高,更加智能大数据的定义:结构化数据:关系型数据库表示和存储 机器学习半结构化数据:常见的有XML和JSON非结构化数据:各种文档、图片、视频/音频等都属于非结构...

2019-02-28 08:54:49 911 1

转载 【机器学习大数据篇】Spark集群三种部署模式的区别

Spark最主要资源管理方式按排名为Hadoop Yarn, Apache Standalone 和Mesos。在单机使用时,Spark还可以采用最基本的local模式。目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,...

2019-02-24 21:00:51 324

转载 【机器学习算法篇】sklearn LogisticRegression - 参数说明

版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/jark_/article/details/78342644 </div> <div id="content_views" cl...

2019-02-22 13:07:48 1748

原创 【机器学习算法篇】学习一点总结

奥卡姆剃刀:多个假设与观察一致,选择最简单的那个。 线性模型:试图学得一个通过属性的线性组合来进行预测的函数,即,一般用向量形式写成。包括线性回归、逻辑回归、线性判别分析,多分类任务。 均方误差是回归任务最常用的性能度量: 基于均方误差最小化来进行模型求解的方法称为“最小二乘法” 二维平面上点a(x1,y1)与b(x2,y2)间的欧氏距离:曼哈顿距离:切比雪...

2019-02-19 02:19:44 210

原创 【机器学习算法篇】决策树

决策树是一种基本的分类与回归方法。决策树的学习过程特征选择:从训练数据的特征中选择一个特征作为当前节点的分裂标准(特征选择的标准不同产生了不同的特征决策树算法)。 决策树生成:根据所选特征评估标准,从上至下递归地生成子节点,直到数据集不可分则停止。 剪枝:决策树容易过拟合,需要剪枝来缩小树的结构和规模(包括预剪枝和后剪枝)。实现决策树的算法包括ID3、C4.5算法等实现决策树的算法包...

2019-02-19 02:19:26 332

原创 【机器学习算法篇】二、逻辑回归

预测函数:损失函数:梯度下降更新过程: 

2019-02-18 22:11:57 215

原创 【机器学习算法篇】一、线性回归

预测函数:                  损失函数:参数:      (正规方程)以上即为参数最优解的闭式解,但我们可以发现*的计算涉及矩阵的求逆,这样的话就有一些限制了,只有在X^T*X为满秩矩阵或者正定矩阵时,才可以使用以上式子计算。但在现实任务中,X^T*X往往不是满秩矩阵,这样的话就会导致有多个解,并且这多个解都能使均方误差最小化,但并不是所有的解都适合于做预测任务,因...

2019-02-18 18:32:18 267

转载 【机器学习杂烩篇】Pandas merge( )合并

merge( )合并需要指定连接键。多对一的合并操作on参数指明单个连接键In [5]: df1=pd.DataFrame({'key':['b','b','a','a','b','a','c'],'data1':range(7)})In [6]: df2=pd.DataFrame({'key':['a','b','d'],'data2':range(3)})In [7]...

2019-02-18 01:13:50 567

转载 【机器学习杂烩篇】pandas Map和replace

import pandas as pdimport numpy as npfrom pandas import Series, DataFramedf1 = DataFrame({"城市":["北京","上海","广州"], &a

2019-02-18 00:21:18 145

转载 【机器学习杂烩篇】Python两个内置函数—locals 和globals

这两个函数主要提供,基于字典的访问局部和全局变量的方式。在理解这两个函数时,首先来理解一下python中的名字空间概念。Python使用叫做名字空间的东西来记录变量的轨迹。名字空间只是一个字典,它的键字就是变量名,字典的值就是那些变量的值。实际上,名字空间可以象Python的字典一样进行访问每个函数都有着自已的名字空间,叫做局部名字...

2019-02-18 00:12:39 129 1

原创 【机器学习小案例篇】关于RFM模型的小案例

import pandas as pd1. 导入数据In [75]:trad_flow = pd.read_csv('D:\python\Script\RFM_TRAD_FLOW.csv',encoding='gbk') #编码格式需要进行修改trad_flow.head() #默认前五行Out[75]:  transID cumid time ...

2019-02-17 15:49:35 1357 1

转载 【机器学习python篇】十分钟搞定pandas

本文是对pandas官方网站上《10 Minutes to pandas》的一个简单的翻译,原文在这里。这篇文章是对pandas的一个简单的介绍,详细的介绍请参考:Cookbook 。习惯上,我们会按下面格式引入所需要的包:一、            创建对象可以通过 Data Structure Intro Setion 来查看有关该节内容的详细信息。1、可以通过传递一个list...

2019-02-17 14:13:16 204

转载 【机器学习杂烩篇】Pandas中的qcut和cut

qcut与cut的主要区别:  qcut:传入参数,要将数据分成多少组,即组的个数,具体的组距是由代码计算  cut:传入参数,是分组依据。具体见示例  1、qcut方法,参考链接:http://pandas.pydata.org/pandas-docs/stable/generated/pandas.qcut.html  1).参数:pandas.qcut(x, q, label...

2019-02-17 13:46:43 627

转载 【机器学习杂烩篇】Pandas 排序sort_values

1 排序  按照某一列的大小进行排序。Py3目前提供两个函数。 1.1 sort_index  这个函数似乎不建议使用了,推荐使用sort_values详情参看:官方文档。 ## 参数sort_index(axis=0, level=None, ascending=True, inplace=False, kind='quickso...

2019-02-17 13:21:29 331

转载 【机器学习杂烩篇】pandas fillna()函数详解

inplace参数的取值:True、FalseTrue:直接修改原对象False:创建一个副本,修改副本,原对象不变(缺省默认)method参数的取值 : {‘pad’, ‘ffill’,‘backfill’, ‘bfill’, None}, default Nonepad/ffill:用前一个...

2019-02-17 13:09:46 9692

转载 【机器学习杂烩篇】详解 Pandas 透视表(pivot_table)

介绍也许大多数人都有在Excel中使用数据透视表的经历,其实Pandas也提供了一个类似的功能,名为 pivot_table。虽然pivot_table非常有用,但是我发现为了格式化输出我所需要的内容,经常需要记住它的使用语法。所以,本文将重点解释pandas中的函数 pivot_table,并教大家如何使用它来进行数据分析。如果你对这个概念不熟悉,维基百科上对它做了详细的解释。顺便说一下...

2019-02-17 11:43:04 422

转载 【机器学习业务篇】基于RFM模型的用户分群方法

一、RFM模型RFM分析就是根据客户活跃程度和交易金额的贡献,进行客户价值细分的一种方法。RFM的含义:R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。F(Frequency):客户在最近一段时间内交易的次数。F值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。M(Monetary):客户在最近一段...

2019-02-17 10:37:05 2794

原创 【机器学习大数据篇】Spark基本框架

 

2019-02-17 01:37:39 240

转载 【机器学习大数据篇】Windows和PC机上搭建Spark+Python开发环境的详细步骤

0准备工作  查看操作系统的版本信息:计算机>>右键“属性”>>查看版本信息,如Windows10专业版64位。    1安装Anaconda 1.1 下载 注意选择与操作系统匹配的版本,截止写本教程时,官方版本为Anaconda5.0.1,内部封装的为Python3.6,也可根据需要下载封装其他版本Python的An...

2019-02-16 14:06:18 676

转载 【机器学习杂烩篇】关于python中axis=0还是axis=1的讨论

首先请看一下官方帮助的解释:轴用来为超过一维的数组定义的属性,二维数据拥有两个轴:第0轴沿着行的垂直往下,第1轴沿着列的方向水平延伸。注意看,官方对于0和1的解释是轴,也就是坐标轴。而坐标轴是有方向的,所以千万不要用行和列的思维去想axis,因为行和列是没有方向的,这样想会在遇到不同的例子时感到困惑。根据官方...

2019-02-15 23:08:20 440 1

原创 【机器学习python篇】五、Pandas的用法

 # -*- coding: utf-8 -*-import numpy as npimport pandas as pdimport sysfrom pandas import Series, DataFrame###pandas#Seriesobj = Series([4, 7, -5, 3])objobj.valuesobj.index...

2019-02-15 17:01:58 215

原创 【机器学习python篇】四、Numpy的介绍(二)

    # -*- coding: utf-8 -*-from __future__ import divisionfrom numpy.random import randnimport numpy as np# -*- coding: utf-8 -*-###通用函数arr = np.arange(10)np.sqrt(arr)np.exp(arr...

2019-02-15 15:59:50 303

原创 【机器学习python篇】三、Numpy的介绍(一)

 np.array可以生成多维数组对象ndarraynp.zeros同样生成多维数组对象ndarray 索引和切片(在机器学习中用的最多的地方,必须理解透彻,熟能生巧)# -*- coding: utf-8 -*-#向量相加-Pythondef pythonsum(n): a = range(n) b = range(n) c = []...

2019-02-15 12:52:03 186

原创 【机器学习技巧篇】本人长期总结的小技巧 持续更新中~

Ipytnon中代码实现中非常实用的快捷方式(Shift-Tab : 提示),可以查看该函数的参数,返回类型,最棒的是下面还有例子。   

2019-02-15 01:13:19 117

转载 【机器学习工具类】Jupyter Notebook 快捷键(基本)

Jupyter Notebook 快捷键Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式 Shift-Enter : 运行本单元,选中下个单元 Ctrl-Enter : 运行本单元 Alt-Ente...

2019-02-15 01:05:01 107

原创 【机器学习python篇】二、python条件、循环语句、常用函数、转义字符、字符串、日期时间、自定义函数、open函数、异常处理

嵌套for循环生成质数 Python 原始字符串操作符(r/R)    命名参数def printinfo( name, age ):   "打印任何传入的字符串"   print "Name: ", name;   print "Age ", age;   return; #调用prin...

2019-02-14 23:44:12 119

原创 【机器学习python篇】一、python基础语法、数据类型、运算符的介绍

%run+脚本路径   运行脚本以下划线开头的变量名含义 参考文献 炼数成金教学视频

2019-02-14 18:52:50 123

转载 浅谈Service Manager成为Android进程间通信(IPC)机制Binder守护进程之路

上一篇文章Android进程间通信(IPC)机制Binder简要介绍和学习计划简要介绍了Android系统进程间通信机制Binder的总体架构,它由Client、Server、Service Manager和驱动程序Binder四个组件构成。本文着重介绍组件Service Manager,它是整个Binder机制的守护进程,用来管理开发者创建的各种Server,并且向Client提供查询Ser

2016-02-03 23:51:24 473

转载 Android进程间通信(IPC)机制Binder简要介绍和学习计划

在Android系统中,每一个应用程序都是由一些Activity和Service组成的,这些Activity和Service有可能运行在同一个进程中,也有可能运行在不同的进程中。那么,不在同一个进程的Activity或者Service是如何通信的呢?这就是本文中要介绍的Binder进程间通信机制了。        我们知道,Android系统是基于Linux内核的,而Linux内核继承和兼

2016-02-02 16:08:24 284

转载 Android日志系统Logcat源代码简要分析

在前面两篇文章Android日志系统驱动程序Logger源代码分析和Android应用程序框架层和系统运行库层日志系统源代码中,介绍了Android内核空间层、系统运行库层和应用程序框架层日志系统相关的源代码,其中,后一篇文章着重介绍了日志的写入操作。为了描述完整性,这篇文章着重介绍日志的读取操作,这就是我们在开发Android应用程序时,经常要用到日志查看工具Logcat了。      

2016-02-02 15:24:52 458

转载 Android应用程序框架层和系统运行库层日志系统源代码分析

在开发Android应用程序时,少不了使用Log来监控和调试程序的执行。在上一篇文章Android日志系统驱动程序Logger源代码分析中,我们分析了驱动程序Logger的源代码,在前面的文章浅谈Android系统开发中Log的使用一文,我们也简单介绍在应用程序中使Log的方法,在这篇文章中,我们将详细介绍Android应用程序框架层和系统运行库存层日志系统的源代码,使得我们可以更好地理解Andr

2016-02-02 15:23:40 882

转载 Android日志系统驱动程序Logger源代码分析

我们知道,在Android系统中,提供了一个轻量级的日志系统,这个日志系统是以驱动程序的形式实现在内核空间的,而在用户空间分别提供了Java接口和C/C++接口来使用这个日志系统,取决于你编写的是Android应用程序还是系统组件。在前面的文章浅谈Android系统开发中LOG的使用中,已经简要地介绍了在Android应用程序开发中Log的使用方法,在这一篇文章中,我们将更进一步地分析Logger

2016-02-02 14:25:02 417

转载 介绍一款Android小游戏--交互式人机对战五子棋

学习Android系统开发之余,编写了一个小游戏--交互式人机对战五子棋,自娱自乐。之所以称之为交互式人机对战五子棋,一是因为在进入人机对战模式这前,你可以任意设置好开局,同时,在对战过程中,你可以看到机器的思考过程,还可以标识出每一个落子点的优劣势;二是因为可以为机器增加游戏经验,使得机器越来越聪明。希望喜欢五子棋的同学能够喜欢,同时,它也非常适合入门级练习。       首先展示一下这

2016-02-01 17:59:22 686

转载 制作可独立分发的Android模拟器

如果我们编写了一个Android应用程序,想在一台没有Android SDK或者BUILD环境的机器显示给别人看,应该怎么办呢?通常,我们开发Android应用程序的时候,都是使用模拟器来运行程序,要么是SDK环境下,要么是在源代码BUILD环境下使用。在SDK环境下,结合Eclipse和ADT,使用模拟器很方便,而BUILD环境下,也是很简单地使用emulator命令就可以了,具体可以参考在Ub

2016-02-01 17:52:53 338

RFM模型小案例的原始数据

【机器学习小案例篇】关于RFM模型的小案例 https://blog.csdn.net/songyu8713162/article/details/87535347 【机器学习业务篇】基于RFM模型的用户分群方法 https://blog.csdn.net/songyu8713162/article/details/87517834

2019-02-17

设计模式—组合模式

设计模式—组合模式

2016-01-10

设计模式—迭代器模式

设计模式—迭代器模式

2016-01-10

设计模式—外观模式

设计模式—外观模式

2016-01-10

设计模式—适配器模式

设计模式—适配器模式

2016-01-10

设计模式—命令模式

设计模式—命令模式

2016-01-10

设计模式—单例模式

设计模式—单例模式

2016-01-05

设计模式—装饰者模式

设计模式—装饰者模式

2016-01-04

设计模式—观察者模式

设计模式—观察者模式

2016-01-04

设计模式—策略模式

设计模式—策略模式

2015-12-31

设计模式-工厂模式资源

设计模式-工厂模式资源

2015-12-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除