求是正-CSDN博客

原创基于pykafka读取kafka数据（Mac OS 环境）

0、背景已经有一个kafka集群在运行，希望能够在本地读取kafka集群中的数据。选择的环境Python，所以选择kafka依赖库pykafka来操作kafka。1、安装在联网情况下直接使用pip安装。pip install pykafka2、配置有些kafka可能返回的不是broker的ip地址，而是域名，因此需要修改本地的etc/hosts文件，将相应的broker域名与ip地址填进去，否则开...

2018-03-29 14:43:55 781

原创使用TensorFlow高级API实现kmeans聚类

TensorFlow可以用来解决很多机器学习问题。TensorFlow提供了tf.contrib.factorization.KMeansClustering高级API可以十分方便地实现聚类。下面以经典的iris花数据集为例，实现一个简单的聚类demo。首先导入数据，从sklearn的datasets中导入iris数据集。然后调用api实现一个聚类函数。值得注意地是此处使用了tf.train.li...

2018-03-29 11:06:47 4424

原创 TensorFlow安装与使用入门-MacOS环境

1、安装TensorFlowAnaconda 是一个集成许多第三方科学计算库的 Python 科学计算环境，机器学习、深度学习中常用的依赖包都已经集成在当中了，免去了繁琐的环境配置过程。到官网下载Anaconda然后安装好。我选择的是MacOs，Python3.6版本。接下来在MacOS的Terminal下操作sudo easy_install pipsudo easy_install --upg...

2018-03-26 16:55:43 1883

原创 Hadoop集群搭建过程

在OpenStack下申请三台虚拟服务器，RAM16GB，硬盘80GB，64位，将其中一个作为namenode，两个作为DataNode序号IP地址机器名类型用户名1Master.HadoopNamenodehadoop2Slave1.HadoopDatanodeslave13Slave2.HadoopDatanodeslave21、安装java因为安装的Hadoop版本为2.6.0，所以安装的j...

2018-03-15 16:30:31 230

原创统计学习方法-学习笔记

一：概述统计学习就是从数据中构建概率统计模型，实现对数据的预测和分析。模型学习的过程就是不断改进性能的过程。统计学习的对象是数据，从数据中提取特征，抽象出模型，从而发现知识，提升对数据的分析性能和对未知新数据的预测性能。其基本假设是同类数据具有一定的统计规律性。对于所讨论的监督学习，一个基本假设就是数据是独立同分布产生的。监督学习的基本概念包括：输入空间、特征空间和输出空间，联合概率分布，假设空间...

2018-03-13 14:37:28 220

原创实习：UT report 部署过程：dom4j解析xml

1、MVC框架model-view-controller，实现业务逻辑、数据、界面显示分离的代码组织方式。model实现业务逻辑，负责从数据库中读取数据，view实现用户界面，依据模型数据，controller实现用户交互，从视图读取数据，控制用户输入，并向模型发送数据。2、框架与设计模式框架通常是代码重用，而设计模式是设计重用，架构介于两者之间。3、dataProcess代码分析包 contro...

2018-03-12 16:18:56 250

原创 Git教程学习

1. Git：分布式版本控制系统Linux下安装git：./config，make，sudo make installMac下安装git：App Store 中下载 Xcode，从“Xcode”->“Preferences”中选择“Downloads”，选择“Command Line Tools”，点击“Install”Windows下安装git：镜像下载安装，“Git”->“Git ...

2018-03-12 15:05:54 123

原创 LeetCode刷题

2. Add Two NumbersYou are given two non-empty linked lists representing two non-negative integers. The digits are stored in reverse order and each of their nodes contain a single digit. Add the two nu...

2018-02-17 15:53:37 182

原创 pandas问题解决：Mac下LookupError: unknown encoding: ansi

LookupError: unknown encoding: ansi报错结果： File "pandas/_libs/parsers.pyx", line 562, in pandas._libs.parsers.TextReader.__cinit__ (pandas/_libs/parsers.c:6175) File "pandas/_libs/parsers.pyx", line 7...

2018-02-14 09:11:23 8284 1

原创浙大版数据结构编程题解答-Java实现

实例1.1 最大子列和问题（20 point(s)）给定K个整数组成的序列{ N1, N2, ..., NK }，“连续子列”被定义为{ Ni, Ni+1, ..., Nj }，其中 1≤i≤j≤K。“最大子列和”则被定义为所有连续子列元素的和中最大者。例如给定序列{ -2, 11, -4, 13, -5, -2 }，其连续子列{ 11, -4, 13 }有最大...

2018-02-12 21:12:46 754

原创读书笔记-Linux-1文件与目录管理

路径：绝对路径、相对路径cd——change directory；pwd——显示当前目录；. 当前目录；.. 上一级目录mkdir——make directory；-p 创建级联子目录；ls——列出目录或文件rmdir——remove directory 删除空目录；rm——删除；-r 删除目录；-f 强制删除环境变量：PATHPATH=$PATH：/root

2018-01-04 19:38:29 170

原创读书笔记-数据挖掘与预测分析-1概述

数据挖掘项目六阶段生命周期：1、业务理解阶段根据项目目标、需求确定数据挖掘问题的公式。2、数据理解阶段探索性数据分析、数据质量评估。3、数据准备阶段收集数据、数据清洗、特征构造与特征选择。4、建模阶段选择模型、优化参数。5、评估阶段评估数据挖掘质量，解释挖掘结果。6、部署阶段建立报表、部署并行数据挖掘过程。场景数据挖掘任务描述、评估、预测、分

2018-01-04 16:00:19 629

求是正