原创_zstarstone的博客-CSDN博客

原创

关注

文章平均质量分 55

关注数：文章数：70 文章阅读量：215490 文章收藏量：122

作者: zstarstone

研究方向：信息安全，大数据分析

展开

机器学习算法笔记系列之深入理解主成分分析PCA-Python实现篇

Author: shizhixin Blog: http://blog.csdn.net/shizhixin Weibo：http://weibo.com/zhixinshi Email: [email protected] Date: 2016-04-19 Note: 本笔记是机器学习算法笔记系列之深入理解主成分分析PCA的实现篇，有自己写的Python实现版本的P

原创 2016-04-19 16:53:44 · 5562 阅读 · 3 评论
开启Hadoop之旅

要回归技术了，开启Hadoop之旅

原创 2013-04-11 09:09:33 · 743 阅读 · 0 评论
读SVM入门

SVM入门http://www.blogjava.net/zhenandaci/category/31868.html文本分类入门（番外篇）特征选择与特征权重计算的区别posted @ 2009-04-19 11:40 Jasper 阅读(6244) | 评论 (28) 编辑SVM入门（十）将SVM用于多类分类posted @ 2009-03-26 1

转载 2011-12-05 16:51:46 · 1323 阅读 · 0 评论
获取当前鼠标按键的坐标值,左键输出当前点，右键则删除上一个按键值，中间键退出

clear,close all, clcx = 1:0.1:10;y = 20*sin(pi/2*x);figureplot(x,y);points = get_mouse_point()-----------------------------------------------------function points = get_mouse_point()% Au

原创 2013-03-08 13:50:49 · 1959 阅读 · 0 评论
关于联合查询一个例子

ec_skill表中：id_weapon_type字段有五种值（0001,0010,0100,1000,1111） id字段ec_role表中：occupation字段有四种值（0,1,2,3,） id字段ec_role_skill表中：role_id字段 skill_id字段role_id字段存储的是ec_role表中的id字段的值skill_id字段存储的是ec_

原创 2012-11-22 16:11:16 · 636 阅读 · 0 评论
观测数据和模型数据根据参数变化的相关性度量

主要是先用三次样条插值对齐两个数据坐标，然后将模型数据进行三阶多项式乘积尽量拟合观测数据，最后求拟合的数据和观测数据之间的内积。内积最大者相关性最大。当然，也可以不通过拟合后内积，直接内积后除以两个向量的模。下面是MATLAB伪代码和源代码。% input: % Mx, My: Model spectrum % Sx, Sy: Observed spectrum% RV_

原创 2012-06-06 16:31:47 · 1332 阅读 · 0 评论
关于两数交换三种方法的思考

// Author:shizhixin // Email:[email protected] // Blog:http://blog.csdn.net/shizhixin // Date:2012-06-06 // Note:关于两数交换三种方法的思考#include using namespace std;//最简单的两个数交换操作void swap1

原创 2012-06-06 16:36:48 · 3599 阅读 · 0 评论
找出两个将近十万多条记录的文件中的不同记录

% Author:shizhixin% Email:[email protected]% Blog:http://blog.csdn.net/shizhixin% Date:2012-05-29% 实验记录：% 找出两个文件a,b中不同的记录，文件中记录的个数分别为m,n% 方法一：最直接的方法是通过两重循环，这样时间复杂度O（m*n）% 方法二：先进行快速排序，然后通过折半查找的

原创 2012-05-29 17:19:57 · 2190 阅读 · 1 评论
三种算法获取一个整数的每个数字

// getnumber.cpp : Defines the entry point for the console application.//// Author:shizhixin // Email:[email protected] // Blog:http://blog.csdn.net/shizhixin // Date:2012-05-06/*晚上无法入眠，随手翻开

原创 2012-05-06 04:23:24 · 5612 阅读 · 1 评论
通过中值滤波，归一化对比LAMOST与SDSS的光谱

% Author:shizhixin% Email:[email protected]% Blog:http://blog.csdn.net/shizhixin% Date:2012-03-12% 通过退红移，中值滤波，然后归一化对光谱进行处理，对比LAMOST与SDSS的光谱。% 光谱文件为：DR8: 4.fits % LAMOST: 1.fits% 参数dered为是否退红移

原创 2012-03-12 03:23:45 · 2680 阅读 · 0 评论
按照txt中指定的文件名，从src_path中拷贝文件到dest_path(copyfile_from_txt)

function num_processed = copyfile_from_txt(txt_filename,src_path,dest_path,add_num,ext_name)% Author:shizhixin% Email:[email protected]% Blog:http://blog.csdn.net/shizhixin% Date:2012-03-02% Func

原创 2012-03-02 15:16:35 · 3256 阅读 · 0 评论
被fclose忽悠了，try...catch...end及lasterr

今天主要把原来的程序整理了一遍，思路清晰多了，程序看起来也美观了。另外一个主要工作，是让程序能够自己一次跑完几千的数据，不会像上次那样，经常跑到几百条，这样那样的原因奔溃了。总结来看，主要有两个原因导致程序的奔溃：1、有些光谱数据，红移太大，退红移后的数据可能还未达到所需要的窗口数据，无法截取数据出来拟合，即所谓的：Index exceeds matrix dimensions.

原创 2012-03-01 21:57:46 · 2195 阅读 · 0 评论
从并排的两列数组中找到typename1或者为typename2的行号，并去重复

function type_pos = get_type_pos(array1, array2, typename1, typename2)%Author:shizhixin %Email:[email protected] %Blog:http://blog.csdn.net/shizhixin %Date:2012-02-29%function:从并排的两列数组中找到

原创 2012-02-29 16:58:02 · 922 阅读 · 0 评论
读取文件夹中的fit文件名，并且提取第11-12字符的数

function sp_no = get_fit_sp(path)%Author:shizhixin%Email:[email protected]%Blog:http://blog.csdn.net/shizhixin%Date:2012-02-29%function:%读取文件夹中的fit文件名，并且提取第11-12字符的数% 如文件名ssy04_1_sp15.fit，

原创 2012-02-29 16:59:18 · 1240 阅读 · 0 评论
浮点计算数值误差及PI的蒙特卡罗近似计算

看JAVA语言程序设计基础，因为以前学习的都是C++, 总体基本上相似。不过这本书里有几个比较有意思的小地方，比如书中写的最小化数值误差(4.7)，书中说在大数之前先增加小数是减少误差的方法。如：//第一种方法求0.01到1之间递增的数列之和for(float i = 0.01f; i<= 1.0f; i = i + 0.01f){sum +=i;}//第二种for(doub

原创 2013-05-01 02:10:42 · 1757 阅读 · 0 评论
hadoop通过FileSystem API读取和写入数据

看hadoop指南（有更好的源码），自己测试着写了一个小例子，在伪分布式上测试成功，对JAVA的一些API也不太了解，都是一个熟悉的过程吧。这个例子主要可以熟悉一些API，以及理解各个类之间的调用和转化关系，重新学习一门语言，主要还是API的一些操作问题，慢慢来吧，别着急，come on.import java.io.InputStream;import java.i

原创 2013-05-27 15:28:19 · 4062 阅读 · 0 评论
hadoop之测试KMeans(一)：运行源码实例

新学hadoop，测试了hello word级别的程序WordCount，打算用hadoop做聚类分析，这次测试KMeans，二维的数据，具体代码来自于http://download.csdn.net/detail/tinycui/4384750#comment，由于评论中大家对于文档偏少，所以这里详细的介绍一下我的测试过程（伪分布式），以供参考，同时感谢tinycui提供的源代码下载。

原创 2013-05-24 11:21:16 · 11189 阅读 · 22 评论
机器学习算法笔记系列之深入理解主成分分析PCA-原理篇

机器学习算法笔记系列之深入理解PCA-原理篇(未完待续) 作者：shizhixin 博客：http://blog.csdn.net/shizhixin 微博：http://weibo.com/zhixinshi 日期：2016-04-141 概述2 引言内积与投影导读：大部分人估计都知道PCA是将数据点向新的方差最大的单位向量做投影，但是什么是到向量的投影，它和内积又有什么

原创 2016-04-18 17:37:37 · 22494 阅读 · 6 评论
关于Markdown编辑器

关于Markdown编辑器最近因为想写文档了，有公式，图片，网上的图，代码等，看了看CSDN有markdown的编辑器，但是害怕在线写的时候突然断了，所以有了下载一个好用的markdown编辑器的想法，但是，事实往往出乎我所料，为了这个事折腾了整整一天，用了将近十来个markdown编辑器，泪崩~~~~归入正题，谈谈我所了解的markdown相关的编辑器，由于匆匆一用，难免没有发掘好的方法，欢迎指

原创 2016-04-12 21:54:24 · 2308 阅读 · 0 评论
中国科学院信息工程研究所招聘研发工程师 /大数据安全分析工程

因工作需要，中国科学院信息工程研究所第四研究室拟招聘以下岗位的科研技术人员。学历要求：2016年应届博士/硕士毕业生，计算机、信息安全等相关专业；岗位要求：研发工程师/助理工程师 1) 熟练掌握Java/C++开发语言，深入理解面向对象编程思想，具备一定项目经验；2) 熟悉J2EE标准，对hibernate、spring、Spring MVC等框架有实际项目的应用经

原创 2016-02-24 20:13:17 · 2555 阅读 · 2 评论
Wireshark与设备解析字节不一致问题

一、问题对于一个PCAP包，用Wireshark的Conversions统计的包字节数（图1），与设备解析得到的字节数（图2）不一致，设备解析后的字节数比Wireshark的字节数要少，但是包数是相同的。二、问题的原因不是丢失包而导致的字节问题，因为包数并没有减少，只是字节减少了。具体原因是用Wireshark抓包抓出来的数据会对不满60字节的数据都做了填充，保证满60字节而设备的流量引擎将这些填充数据数据都去掉了，统计的是真实数据的字节数，所以会少了填充的字节数。即Wireshark抓包的字节数

原创 2016-01-16 00:17:58 · 3995 阅读 · 0 评论
ubuntu git 服务器搭建

安装Git及Gitosis$apt-get update$apt-get upgrade$ps -ef | grep ssh$sudo apt-get install openssh-server openssh-client$sudo apt-get install git-core $sudo adduser --system --shell /bin/bash -

原创 2015-08-28 02:35:33 · 1374 阅读 · 0 评论
关于虚继承和析构函数的一个奇怪的问题

class A{public : int _a1; int _b; void virtual f(){};};class B:virtual public A{public: int _b; ~B(){}; //line1 void virtual f(){}; //line2 void virtual f2(){}; void virtual f3

原创 2015-07-17 10:33:17 · 1126 阅读 · 1 评论
编程之美读书笔记：求一个字节(8bit)的无符号整型变量表示的二进制中1的个数

#include using namespace std;typedef unsigned char BYTE;// Reader:shizhixin// Email:[email protected]// Blog:http://blog.csdn.net/shizhixin// Date:2012-05-07// Function：求一个字节(8bit)的无符号整型变量表示的

原创 2012-05-07 21:43:37 · 3249 阅读 · 0 评论
linux一些常用的命令

ssh登录ssh -X [email protected] -X图形化打开一些软件拷贝文件夹到服务器上scp -r src_path hostname@ip_address:dest_pathscp -r /home/result [email protected]:/home/csdnserver切换到一般用户su - usename

原创 2012-03-15 10:06:05 · 706 阅读 · 0 评论
关于synergy个人使用感受(两台机器一个键盘鼠标)

上次申请了一台机器，准备弄hadoop，两台机器两个键盘，占地方而且麻烦，呵呵，找到了解决方案，Synergy&xp&ubuntu这里还需要注意的是两个要装同样的版本，开始我安装的时候xp和ubuntu版本不一样没有成功，建议以ubuntu的版本一致。试用了几天，感觉很不错，但是就是有一个很烦人的问题，在客户端那边用服务器端的键盘如果按shift, alt, home键，经

原创 2013-04-16 13:09:22 · 10185 阅读 · 1 评论
中国科学院信息工程研究所第四研究室实习生/应届生招聘

中国科学院信息工程研究所第四研究室实习生/应届生招聘实习生招聘1、Java/C++语言扎实；2、熟练掌握计算机网络、数据结构与算法、网络编程、多线程编程技术；3、有Hadoop/Storm/Spark等分布式计算系统使用经验者优先；4、有网络信息安全、大数据处理方面经验优先；5、良好的团队合作和沟通能力，做事认真严谨，对解决挑战性问题充满激情；6、诚实，勤奋，快速学习能力；7、大学本科或以上学历，每周至少实习三天以上。此外，有少量2015届硕士/博士应届生工作机会。简历投递：Ema

原创 2015-03-17 10:02:50 · 2156 阅读 · 0 评论
计算分段采样区间中的平均值，标准差，中位数，积分值等的类

SampleFits.javapackage org.eso.fits;import java.util.Arrays;public class SampleFits { /*本类完成的功能：对输入的的初始样本lamda, flux，根据整个采样区间的边界值如[3900 9000]以及采样间隔50进行分段， * 在例子中，lambda和flux的长度应该从小到大有序而且一致，并

原创 2013-06-06 17:20:53 · 7756 阅读 · 0 评论
读取Fits数据及画图显示JAVA版

初学JAVA，没想到读取Fits，尤其是在MATLAB中一条命令搞定的显示数据，显得比较麻烦。这里用了两个包，分别完成读取及显示的功能。读取Fits的头文件以及获取Table的数据：Java Library for access to FITS files对于读取出来的波长和流量进行绘图：Plot Package,jahuwaldt.plot 在他们类的基础上，参考他们给出的Demo，

原创 2013-06-05 17:03:45 · 4886 阅读 · 6 评论
一个下午，找了一条小虫，JAVA读取fits文件出错异常

准备用JAVA完成对光谱的读取，并寻找相似集。下午开始，就卡在光谱的读取中，郁闷了一个下午。以前用MATLAB写过读取光谱的代码（FIT文件格式解析及MATLAB读取程序），也用C++写过，但是觉得C++以前一个字节一个自己的读取过于麻烦，所以对于JAVA的，先找找是不是有读取fits文件的包。没想到还找到了：Java Library for access to FITS files 。但是，

原创 2013-06-04 20:43:39 · 2013 阅读 · 0 评论
java初学常用

eclipse 设置自动提示eclipse有，window--preference--java--editor--content assist,页面最下面倒数第二行那个框里修改成.abcdefghijklmnopqrstuvwxyz就好了Eclipse中对齐代码快捷键ctrl+shift+fEclipse注释代码1.选中你要加注释的区域，用ctrl+sh

原创 2013-05-01 01:46:23 · 783 阅读 · 0 评论
自己完成的第一个Map-Reduce, 类似模板匹配

终于完成了自己的第一个MAP-REDUCE程序，程序的主要功能是对输入文件中的一组向量，计算新的向量和文件中的向量距离，并按距离从小到大排序。下一步计算应用到高维数据中寻找相似向量的程序中。从Map-reduce程序开发的角度考虑自己做的这个程序，以后需要注意的这几点：1、map根据定义的输入格式自动读入数据，默认的是对文本文件中每行的值读取作为value, 看很多书说其key是行，我觉得

原创 2013-06-04 10:49:11 · 2641 阅读 · 0 评论
hadoop之测试KMeans(二)：输出结果分析

上次给出了hadoop之测试KMeans(一)：运行源码实例，这次来分析一下整个MapReduce的输出结果。测试数据文件依然是文一中提到的15组数据：(20,30) (50,61) (20,32) (50,64) (59,67)(24,34) (19,39) (20,32) (50,65) (50,77) (20,30) (20,31) (20,32) (50,64) (50,67) 先

原创 2013-05-28 12:55:25 · 4831 阅读 · 0 评论
SQL找出表中某个字段无重复值的三个字段

SQL找出一个表中的三个字段，这三个字段中保证某个字段没有重复的值。比如col1，col2，col3，select distinct col1, col2 col3 from table1这样的话只是三个联合起来没有重复的值,并不能保证某个字段，比如col2没有重复的值SQL语句：select col1,col2,col3 from table1 where id i

原创 2012-02-20 14:44:01 · 2045 阅读 · 0 评论
matlab重命名文件movefile

function rename_dir(path, option)%Author:shizhixin%Email:[email protected]%Blog:http://blog.csdn.net/shizhixin%Date:2012-02-15%option = 'LAMOST','DR8','SPECIAL'%LAMOST:类似spec_release.php@path=%

原创 2012-02-15 10:15:52 · 8520 阅读 · 3 评论
按指定的列col排序数组A，并保持数组行相对不变

function B=sort_array(A, col)%按指定的列col排序数组A，并保持数组行相对不变% Note:此函数仅适合N*2的数组排序,col取 1 or 2，否则B=0% ie:% A =% 1 4% 2 3% 1 2% 4 6% 2 3% B = sort_array(A, 2)% B =% 1 2% 2 3% 2 3% 1 4% 4 6% B

原创 2011-06-24 10:31:00 · 760 阅读 · 0 评论
WININET库文件错误

帮朋友弄WININET，从VS版本不对，到链接不对，弄了一个晚上，原来他发给我的库文件错了，崩溃！！！幸好后来我发现链接错误的函数都不是CODE里面的函数，幸好后来我发现WININET是一个公用的库，要不我去哪里找答案去？？呵呵，好久没看代码了，最近看看，还是挺好的，希望以后这个技术博客能多点更新，哎，人懒了啊。

原创 2011-10-13 21:17:45 · 561 阅读 · 0 评论
一定要坚持!

看了这么多的JPG文章,也写了将近一个月的关于JPG的代码,我想,我不能放弃.虽然那个项目基本上算是完成了,但是,不管再没时间,我一定要坚持把他彻底弄懂,弄明白,并且圆满的完成任务.我知道这个任务比较艰巨,但是,一定要坚持!

原创 2009-08-29 18:06:00 · 620 阅读 · 0 评论
内存释放问题解决了

内存释放问题解决了，呵呵，很兴奋，发现最近进展一天一个样啊，呵呵。加油！

原创 2009-09-06 15:51:00 · 701 阅读 · 0 评论
华北计算所其中一道机试题,逆转字符串,但是单词顺序不变

/*华北计算所其中一道机试题,逆转字符串,但是单词顺序不变，字符串中只含有字母和空格。比如this is a book,逆序后为book a is this Author：shizhixinEmail:[email protected]:http://blog.csdn.net/ShiZhixinData:Oct 25,2009*/#include "std

原创 2009-10-25 09:41:00 · 1416 阅读 · 0 评论

原创

作者: zstarstone

机器学习算法笔记系列之深入理解主成分分析PCA-Python实现篇

开启Hadoop之旅

读SVM入门

获取当前鼠标按键的坐标值,左键输出当前点，右键则删除上一个按键值，中间键退出

关于联合查询一个例子

观测数据和模型数据根据参数变化的相关性度量

关于两数交换三种方法的思考

找出两个将近十万多条记录的文件中的不同记录

三种算法获取一个整数的每个数字

通过中值滤波，归一化对比LAMOST与SDSS的光谱

按照txt中指定的文件名，从src_path中拷贝文件到dest_path(copyfile_from_txt)

被fclose忽悠了，try...catch...end及lasterr

从并排的两列数组中找到typename1或者为typename2的行号，并去重复

读取文件夹中的fit文件名，并且提取第11-12字符的数

浮点计算数值误差及PI的蒙特卡罗近似计算

hadoop通过FileSystem API读取和写入数据

hadoop之测试KMeans(一)：运行源码实例

机器学习算法笔记系列之深入理解主成分分析PCA-原理篇

关于Markdown编辑器

中国科学院信息工程研究所招聘研发工程师 /大数据安全分析工程

Wireshark与设备解析字节不一致问题

ubuntu git 服务器搭建

关于虚继承和析构函数的一个奇怪的问题

编程之美读书笔记：求一个字节(8bit)的无符号整型变量表示的二进制中1的个数

linux一些常用的命令

关于synergy个人使用感受(两台机器一个键盘鼠标)

中国科学院信息工程研究所 第四研究室实习生/应届生招聘

计算分段采样区间中的平均值，标准差，中位数，积分值等的类

读取Fits数据及画图显示JAVA版

一个下午，找了一条小虫，JAVA读取fits文件出错异常

java初学常用

自己完成的第一个Map-Reduce, 类似模板匹配

hadoop之测试KMeans(二)：输出结果分析

SQL找出表中某个字段无重复值的三个字段

matlab重命名文件movefile

按指定的列col排序数组A，并保持数组行相对不变

WININET库文件错误

一定要坚持!

内存释放问题解决了

华北计算所其中一道机试题,逆转字符串,但是单词顺序不变

中国科学院信息工程研究所第四研究室实习生/应届生招聘