2019年01月_大数据技术派

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载寒假在家好无聊 | | 学点东西吧

R语言数据分析挖掘实战R与Python数据挖掘实战mysql入门到精通教程打飞机游戏PySpark最新大数据高薪课程R语言爬虫详解与实战零基础入门Python数据分析点击...

2019-01-24 21:44:58 346

转载 Flink的重启策略 Restart Strategies

目录概览重启策略固定间隔 (Fixed Delay) 重启策略失败率 (Failure Rate) 重启策略无重启 (No Restart) 策略回调 (Fallback) 重启策略Flink 支持多种不同的重启策略，这些策略控制了在失败情况下工作要如何重启。集群在启动时会伴随一个默认的重启策略，在没有定义具体工作重启策略时会使用该默认策略。如果在工作提交时制定一个...

2019-01-22 21:40:54 3287

原创 Flink的Checkpointing机制

目录先决条件启用和配置检查点选择状态的后端存储（State Backend）迭代式作业中的状态检查点（State Checkpoints in Iterative Jobs）重启策略（Restart Strategies）Flink中的每个function和operator都可以是有状态的（有关详细信息请参阅有状态的运行）。有状态的functions通过处理各个元素/事件来...

2019-01-22 21:35:55 5342

通过类型清单(manifests) and 类标签功能，Scala对于运行时的类型信息有着非常详细的概念。通常，Scala对象的类型和方法可以访问其泛型参数的类型，因此，Scala程序不会有Java程序那样的类型擦除问题。此外，Scala允许通过Scala的宏在Scala编译器中运行自定义代码，这意味着当你编译针对Flink的Scala API编写的Scala程序时，会执行一些Flink代码。...

2019-01-22 21:26:15 896

转载基于30多万条招聘信息的热门城市、地域、薪资、人才要求的数据可视化分析...

又是一年毕业季，什么工作好找、工资高、哪些地域有优势等就是很多人关注的话题了。这里用一份2019年初，含有32万条数据（行）、19个详细招聘信息（列）的数据进行招聘信息的...

2019-01-20 11:19:43 919

原创此图片来自微信公众平台未经允许不可引用

将微信公众带图片文章直接粘贴到其它博客网站，比如csdn，浏览时图片看不到，会显示字样：此图片来自微信公众平台未经允许不可引用解决办法将微信公众号的文章复制粘贴到word文档中，然后再将word的内容复制粘贴到比如csdn富文本编辑器中，直接保存发布博文即可。这样，将微信公众号带图片的文章发到csdn还是很方便的，一分钟都不到就搞定。微信扫码、关注我...

2019-01-19 22:36:09 1678

原创决策树之剪枝算法手动计算+R语言简单实现——（二）

目录决策树的修剪决策树规则提取决策树算法小结R语言小例子在上一篇我们介绍了，决策树的数据准备与决策树的生长，也用一个小例子手动计算了决策树的生长分支过程。常用的分支准则方法有三种：信息增益、信息增益率、基尼系数。其实，这里问题就来了，决策树是可以不加限制的生长到有可能到很深的吗？当然是不行的，这就是这一节需要介绍的主要内容之一决策树的修剪，当然还会对决策树算法规律稍微总结一下，...

2019-01-19 11:42:40 5672

原创人工神经网络实现简单的逻辑运算

目录官方定义1、人工神经元模型2、转移函数3、matlab实现简单的逻辑运算什么是人工神经网络，我的理解就是：举个不太恰当的例子，当你训练你的狗时，第一次给它一个橘子，跟它说这是橘子；下一次再给它橘子，看它还认不认识，如果不认识，继续告诉他，直到狗可以认出橘子为止。那么下次你就可以给它拿一个香蕉，问它这是不是橘子，如果它说不是，说明它已经被训练的差不多了。官方定义神经网...

2019-01-19 11:12:49 3423

原创 5分钟学会马尔科夫模型

马尔可夫模型（Markov Model）是一种统计模型，广泛应用在语音识别，词性自动标注，音字转换，概率文法等各个自然语言处理等应用领域。经过长期发展，尤其是在语音识别中的成功应用，使它成为一种通用的统计工具。有时候，数学就是这么强大，数学家就是这么富于创造力。很多人觉得马尔科夫不好理解，今天先对马尔科夫模型做一个5分钟快速入门，希望对新手有帮助！一、马尔科夫模型包括我自己，很多人都不...

2019-01-19 11:01:51 21971 4

原创 Python简单文本分析朱自清写《匆匆》的情感状态

目录1、jieba中文分词的三种常用模式2、简单文本分析朱自清写《匆匆》的情感状态分词结果下面统计词频分词是自然语言处理（NLP）中最底层、最基本的模块，分词精度的好坏将直接影响文本分析的结果。有好多大型的分词系统（比如北京理工大学张华平博士开发的中文分词系统：ICTCLAS，是一个很优秀的分词系统），这里介绍Python中使用的小巧、强大的jieba中文分词。首先获得ji...

2019-01-19 10:57:29 806

原创 K-means算法通俗原理及Python与R语言的分别实现

K均值聚类方法是一种划分聚类方法，它是将数据分成互不相交的K类。K均值法先指定聚类数，目标是使每个数据到数据点所属聚类中心的总距离变异平方和最小，规定聚类中心时则是以该类数据点的平均值作为聚类中心。K均值法原理与步骤对于有N个数据的数据集，我们想把它们聚成K类，开始需要指定K个聚类中心，假设第i类有ni个样本数据，计算每个数据点分别到聚类中心的距离平方和，距离这里直接用的欧式距离，还有什么...

2019-01-19 10:47:51 680

原创 jieba分词的Python与R语言基础用法介绍

人们说话不是一个词一个词崩出来的，文章也就由句子组成。要想让机器识别美文，体会中华名族汉语的博大精深，不是不可能。但是，首先需要将其转化成其可以识别的模式——词语。分词是自然语言处理(NLP)中最底层、最基本的模块，分词精度的好坏将直接影响文本分析的结果。这里介绍著名的分词方法：结巴分词以及基本分词方法在Python和R语言中的用法。Python中的结巴分词 Python中文分词的三种...

2019-01-19 10:32:08 2281

原创 R语言爬虫之rvest包——基础详细介绍+示例

分享一个大神的人工智能教程。零基础！通俗易懂！风趣幽默！还带黄段子！希望你也加入到人工智能的队伍中来！点击浏览教程都说Python爬虫功能强大，其实遇到动态加载或者登陆网站Python还是很困难，对于大部分的一些普通爬虫，R语言还是很方便。这里介绍R语言rvest包爬虫，主要用到函数：read_html()、html_nodes()、html_text()和html_attrs()。安...

2019-01-19 10:28:46 16767 11

原创 python快速生成二维码，你值得拥有

我相信很多人，跟我一样，经常需要生成各种二维码，好在微信中发送，传播，我通常都会用一个几行python代码的脚本快速生成二维码。想用的时候，随时输入一个命令，就能生成二维码。废话不多说，直接上脚本(python 2.7 版本)。import qrcodeimport sysdef run(url, path): qr_image = qrcode.make(url) qr_...

2019-01-18 21:12:24 974 2

原创 MySQL server has gone away ，解决办法

我的博客今天在用python查询hive，统计结果保存到mysql的时候，尝试了好多遍，总是报这个错误，python环境下的错误信息： _mysql_exceptions.OperationalError: (2006, 'MySQL server has gone away')造成这样的原因一般是sql操作的时间过长，或者是传送的数据太大(例如使用insert ... value...

2019-01-18 21:07:25 2340

转载《人民的名义》小说文本分析

又是一年毕业季，什么工作好找、工资高、哪些地域有优势等就是很多人关注的话题了。这里用一份2017年初，含有32万条数据（行）、19个详细招聘信息（列）的数据进行招聘信息的...

2019-01-17 08:00:00 1414

原创为什么会有这么多IT培训机构，分析慕课网培训课程情况就都明白了！

http://www.ikeguang.com/获取了慕课网的所有IT培训课程数据，通过pandas和matplotlib从不同领域、课程难易度、数量进行数据分析，发现现在网络教育很火，难怪连百度的吴恩达都退下来开始自己的教育事业了。一、数据获取数据获取主要是用python的简单爬虫，慕课网的数据获取非常容易，这里不再赘述。二、数据预处理读取数据，并且将其变为DataFrame...

2019-01-16 23:25:43 2994

原创读书笔记（一）——支持向量机(SVM)朴素原理

http://www.ikeguang.com/最近在学习分类算法支持向量机(SVM)，它是一种监督式学习算法。SVM算法是将原始数据特征转换至另一个高维度，并基于构建一个或多个超平面，使得训练数据中不同类别的数据得以尽可能的分开，同时该超平面需要尽可能地远离各类别中最靠近超平面的数据点。那么就有这样的疑问了：对于线性可分情况能不能像简单神经网络感知机那样找到一条直线将所有点分类？该超平面怎么...

2019-01-16 23:22:12 506

原创决策树分析理论之分支准则+实例计算（一）

http://www.ikeguang.com/决策树是一种树形结构，其中每个内部节点表示一个属性上的测试，每个分支代表一个测试输出，每个叶节点代表一种类别。决策树具有监督式的特征提取与描述的功能，将输入变量根据目标设定来选择分支变量与分支方式，并以树枝状的层级架构呈现，以提取分类规则。构建决策树目的探索预测构建决策树的步骤数据准备决策树生长决策树修剪规则提取在...

2019-01-16 23:19:07 4610

原创基于梯度下降法的——线性回归拟合（二）

http://www.ikeguang.com/阅读本文需要的知识储备：高等数学运筹学 Python基础1、引出梯度下降对于，线性回归问题，上一篇我们用的是最小二乘法，很多人听到这个，或许会说：天杀的最小二乘法，因为很多人对它太敏感了。是的，从小到大，天天最小二乘法，能不能来点新花样。这里就用数学算法——梯度下降，来解决，寻优问题。当然了，我们的目标函数还是：在开始...

2019-01-16 23:15:27 1800

原创基于最小二乘法的——线性回归拟合（一）

http://www.ikeguang.com/阅读本文需要的知识储备：高等数学概率论与数理统计 Python基础最近对线性回归很感兴趣，就研究了一下。其实生活中有很多这样的例子，比如：票价与行车距离、服务质量之间的关系，买房时房价与面积、地域等的关系。给我们一组这样的数据，我们想找出一个数学关系来描述这个问题，从而得到自己想要的结论。那么，怎么样才能使得你确定出的关系是一个好的线...

2019-01-16 23:13:26 16895

原创隐马尔科夫模型（HMM）趣味理解与实现

http://www.ikeguang.com/在马尔可夫模型中，每一个状态都是可观察的序列，是状态关于时间的随机过程，也成为可视马尔可夫模型。隐马尔科夫模型中的状态是不可见的，我们可以看到的是状态表现出来的观察值和状态的概率函数。在隐马模型中，观察值是关于状态的随机过程，而状态是关于时间的随机过程，因此隐马模型是一个双重随机过程。什么叫状态序列与观察序列呢？举个例子：假如，有一对男生...

2019-01-16 23:09:09 549

原创来一场啤酒与尿不湿的旅行——关联规则

http://www.ikeguang.com/在一家超市里，有一个有趣的现象：尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话，而是发生在美国沃尔玛连锁店超市的真实案例，并一直为商家所津津乐道。这是数据挖掘算法关联规则在实际中的成功应用案例，那么关联规则算法的理论根基又是什么呢？这就是关联规则的思想，即如果顾客购买一部分商品，那么他有多...

2019-01-16 23:04:13 2714

原创数据分析应该怎么学？———一个包含数据获取与分析的小项目

http://www.ikeguang.com/数据来源：前程无忧网获取方式：爬虫数据量：所有最新的招聘信息（武汉）时间：最近几天分析对象：a：实习律师；b：律师助理分析视角：1、不同工资区间比例；2、不同经验要求的比例；3、不同学历要求的比例；4、不同律所的平均工资水平；5、结论。律师行业整体属于高收入群体，那么实习律师、律师助理工资又会是怎样一个水平呢。对于这...

2019-01-16 23:00:02 547

原创 hbase 预分区

没有预分区缺点首先是热点写，我们总是会往最大的start-key所在的region写东西，因为我们的rowkey总是会比之前的大，并且hbase的是按升序方式排序的。所以写操作总是被定位到无上界的那个region中。其次，由于写热点，我们总是往最大start-key的region写记录，之前分裂出来的region不会再被写数据，有点被打进冷宫的赶脚，它们都处于半满状态，这样的分布也是不利的...

2019-01-16 22:54:43 486

原创 python查询hive结果保存到mysql的python代码优化历程

由于hive查询结果是不能直接保存到mysql的，有人会用sqoop，相对还是不方便。当然了，肯定还有一些其它的hive~mysql互导工具，通常我们用python驱动hiveserver2，hivecli官方并不建议，也利用python将结果保存到mysql。那么python操作hive查询结果保存到mysql过程是怎么样的呢？1、需要的包网上百度，搜到的包不外乎下面3个，这里用第二个。...

2019-01-16 22:42:25 1582

原创 Gitment给基于hexo的yilia主题的博客搭建免费评论系统

交了3年的女朋友不理我了，她说我连SVM都不会？我的博客用的是搜狐的畅言，功能确实非常强大，但是很多功能我用不上，也不会用，有两个问题：1）评论需要登录，有门槛；2）页面底部有广告。严重影响视觉体验。点击站长去广告吧，跳到了付费页面：49元一个月，这不是要我命吗？就这吊样，你说我能忍吗？所以，我决定，重新寻找博客评论系统，肯定有开源的。然后，用google一搜（不要用百度搜...

2019-01-15 21:37:04 5309 19

原创内存总是不够？？？| hbase内存优化配置

hbase是个比较吃内存的大数据组件，虽然数据存在hdfs中，但是不像mysql或者elasearch那样有索引的优势，只能用内存缓存数据来实现快速存取。hbase安装时候，通常都需要修改配置文件，默认配置通常是8G内存的配置。配置文件有问题的话，后果是：hbase集群启动，直接报错，启动失败。所以说，一个好的hbase内存配置，很重要。数据组hbase好端端的，老是不够，然后非常协调...

2019-01-13 14:20:45 4442 1

原创 mysql列值不区分大小写的问题

在将分组聚合结果（就是用了group by col,col2…）保存到mysql时，列是一个联合唯一索引，多个列的组合不重复，发现下面这两个语句会报错：1Duplicate entry '2019-01-04-tx' for key 'PRIMARY'很显然，这是主键或者唯一索引冲突导致的。因为我执行了这样两条sql：insert into tableName(date,workflow...

2019-01-07 23:04:18 1177

转载数据分析TB级别数据量大了怎么办，不会代码模型训练怎么办？

数据分析经常会遇到数据量大的问题，比如用R语言和Python语言时经常会遇到内存溢出的问题，即使把整个机器内存全部使用，达到最大使用率，还是无济于事，比如数据量是10T，...

2019-01-05 23:06:14 2121

Zookeeper单机环境和集群环境搭建

2023-06-15

虚拟机静态IP及多IP配置

2023-06-15

基于Zookeeper搭建Kafka高可用集群

2023-06-15

基于Zookeeper搭建Hadoop高可用集群

2023-06-15

Storm集群环境搭建

2023-06-15

Spark开发环境搭建

2023-06-15

Spark集群环境搭建

2023-06-15

Linux下Python安装

2023-06-15

Linux下JDK安装

2023-06-15

Linux下Flume的安装

2023-06-15

Linux环境下Hive的安装部署

2023-06-15

HBase集群环境搭建

2023-06-15

Hadoop集群环境搭建

2023-06-15

docker 安装 wordpress，通过nginx反向代理，绑定域名，配置https

2023-06-15

5分钟安装docker教程

2023-06-15

2022年Python爬虫最全资料【6年爬虫经验精华总结】

【主要内容】 1. Python爬虫简介与环境安装 - Pythonn环境 - Selenium安装 - Python相关包 2. 基本库的使用 - 爬虫基本原理； - urlib库使用； - requests库使用； - bs4使用； - xpath和lxml使用； - selenium使用； - PyQuery使用； 3. scrapy基本使用 4. Scrapy redis实现分布式爬虫 5. 反爬措施 6. 手机APP爬虫 - 模拟器安装、fiddler、appium、mitmproxy安装； - 抓包工具的使用； - 移动端自动化控制； - 利用mitmproxy抓取存储数据； - apk脱壳反编译； references，学习资料分享价格可谈，联系我：ddxygq。

2022-07-07

TA关注的人

Zookeeper单机环境和集群环境搭建

虚拟机静态IP及多IP配置

基于Zookeeper搭建Kafka高可用集群

基于Zookeeper搭建Hadoop高可用集群

Storm集群环境搭建

Spark开发环境搭建

Spark集群环境搭建

Linux下Python安装

Linux下JDK安装

Linux下Flume的安装

Linux环境下Hive的安装部署

HBase集群环境搭建

Hadoop集群环境搭建

docker 安装 wordpress，通过nginx反向代理，绑定域名，配置https

5分钟安装docker教程

2022年Python爬虫最全资料【6年爬虫经验精华总结】

阿里巴巴java开发手册中文版

hive-hbase-handler-1.2.1.jar

hadoop-2.7.2 windows7环境编译文件（winutils.exe、hadoop.dll）

用matlab编写猜字小游戏

谁知道python3怎么安装包scrapy，谢谢。