- 博客(12)
- 收藏
- 关注
原创 基于pykafka读取kafka数据(Mac OS 环境)
0、背景已经有一个kafka集群在运行,希望能够在本地读取kafka集群中的数据。选择的环境Python,所以选择kafka依赖库pykafka来操作kafka。1、安装在联网情况下直接使用pip安装。pip install pykafka2、配置有些kafka可能返回的不是broker的ip地址,而是域名,因此需要修改本地的etc/hosts文件,将相应的broker域名与ip地址填进去,否则开...
2018-03-29 14:43:55
781
原创 使用TensorFlow高级API实现kmeans聚类
TensorFlow可以用来解决很多机器学习问题。TensorFlow提供了tf.contrib.factorization.KMeansClustering高级API可以十分方便地实现聚类。下面以经典的iris花数据集为例,实现一个简单的聚类demo。首先导入数据,从sklearn的datasets中导入iris数据集。然后调用api实现一个聚类函数。值得注意地是此处使用了tf.train.li...
2018-03-29 11:06:47
4424
原创 TensorFlow安装与使用入门-MacOS环境
1、安装TensorFlowAnaconda 是一个集成许多第三方科学计算库的 Python 科学计算环境,机器学习、深度学习中常用的依赖包都已经集成在当中了,免去了繁琐的环境配置过程。到官网下载Anaconda然后安装好。我选择的是MacOs,Python3.6版本。接下来在MacOS的Terminal下操作sudo easy_install pipsudo easy_install --upg...
2018-03-26 16:55:43
1883
原创 Hadoop集群搭建过程
在OpenStack下申请三台虚拟服务器,RAM16GB,硬盘80GB,64位,将其中一个作为namenode,两个作为DataNode序号IP地址机器名类型用户名1Master.HadoopNamenodehadoop2Slave1.HadoopDatanodeslave13Slave2.HadoopDatanodeslave21、安装java因为安装的Hadoop版本为2.6.0,所以安装的j...
2018-03-15 16:30:31
230
原创 统计学习方法-学习笔记
一:概述统计学习就是从数据中构建概率统计模型,实现对数据的预测和分析。模型学习的过程就是不断改进性能的过程。统计学习的对象是数据,从数据中提取特征,抽象出模型,从而发现知识,提升对数据的分析性能和对未知新数据的预测性能。其基本假设是同类数据具有一定的统计规律性。对于所讨论的监督学习,一个基本假设就是数据是独立同分布产生的。监督学习的基本概念包括:输入空间、特征空间和输出空间,联合概率分布,假设空间...
2018-03-13 14:37:28
220
原创 实习:UT report 部署过程:dom4j解析xml
1、MVC框架model-view-controller,实现业务逻辑、数据、界面显示分离的代码组织方式。model实现业务逻辑,负责从数据库中读取数据,view实现用户界面,依据模型数据,controller实现用户交互,从视图读取数据,控制用户输入,并向模型发送数据。2、框架与设计模式框架通常是代码重用,而设计模式是设计重用,架构介于两者之间。3、dataProcess代码分析包 contro...
2018-03-12 16:18:56
250
原创 Git教程学习
1. Git:分布式版本控制系统Linux下安装git:./config,make,sudo make installMac下安装git:App Store 中下载 Xcode,从“Xcode”->“Preferences”中选择“Downloads”,选择“Command Line Tools”,点击“Install”Windows下安装git:镜像下载安装,“Git”->“Git ...
2018-03-12 15:05:54
123
原创 LeetCode刷题
2. Add Two NumbersYou are given two non-empty linked lists representing two non-negative integers. The digits are stored in reverse order and each of their nodes contain a single digit. Add the two nu...
2018-02-17 15:53:37
182
原创 pandas问题解决:Mac下LookupError: unknown encoding: ansi
LookupError: unknown encoding: ansi报错结果: File "pandas/_libs/parsers.pyx", line 562, in pandas._libs.parsers.TextReader.__cinit__ (pandas/_libs/parsers.c:6175) File "pandas/_libs/parsers.pyx", line 7...
2018-02-14 09:11:23
8284
1
原创 浙大版数据结构编程题解答-Java实现
实例1.1 最大子列和问题(20 point(s))给定K个整数组成的序列{ N1, N2, ..., NK },“连续子列”被定义为{ Ni, Ni+1, ..., Nj },其中 1≤i≤j≤K。“最大子列和”则被定义为所有连续子列元素的和中最大者。例如给定序列{ -2, 11, -4, 13, -5, -2 },其连续子列{ 11, -4, 13 }有最大...
2018-02-12 21:12:46
754
原创 读书笔记-Linux-1文件与目录管理
路径:绝对路径、相对路径cd——change directory;pwd——显示当前目录;. 当前目录;.. 上一级目录mkdir——make directory;-p 创建级联子目录;ls——列出目录或文件rmdir——remove directory 删除空目录;rm——删除;-r 删除目录;-f 强制删除环境变量:PATHPATH=$PATH:/root
2018-01-04 19:38:29
170
原创 读书笔记-数据挖掘与预测分析-1概述
数据挖掘项目六阶段生命周期:1、业务理解阶段根据项目目标、需求确定数据挖掘问题的公式。2、数据理解阶段探索性数据分析、数据质量评估。3、数据准备阶段收集数据、数据清洗、特征构造与特征选择。4、建模阶段选择模型、优化参数。5、评估阶段评估数据挖掘质量,解释挖掘结果。6、部署阶段建立报表、部署并行数据挖掘过程。场景数据挖掘任务描述、评估、预测、分
2018-01-04 16:00:19
629
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人