扎克伯哥-CSDN博客

原创《科研有方——科研需要“想好”再“做”》笔记 Chapter4：科研工具

Chapter4：科研工具1 数学工具maple 擅长符号运算超强 e.g. ax^2 + bx + c = 0 我们不需要提供a,b,c的具体取值，maple可以直接给出x的符号解析解其他：MATLAB、mathematica2 仿真工具MATLAB主要用于链路级仿真NS2更适于系统级仿真3 论文工具LaTeXWinedt 可以看LaTeX代码Scientific Workpla

2017-12-07 19:18:57 903 1

原创《科研有方——科研需要“想好”再“做”》笔记 Chapter3：英文论文写作

chapter3论文写作的目的是引发读者去思考，向他们传递你的思想，而不是追求文学上的优美。1`词汇的长期积累摘抄英文句子请务必用手写，在电脑上或打印出来看，会感觉自己是在阅读论文，有种疲劳感，而不像手写在本子上感觉那么亲切。2`善用工具英英词典，对于频繁使用但是拿不定意思的词语Google强制搜索，加双引号通配符搜索，*指定站点：Site:指定文件类型：Filetype:指定URL：

2017-12-07 17:59:52 814

原创《科研有方——科研需要“想好”再“做”》笔记 Chapter2：如何做科研

Chapter2：如何做科研 ↗论文里的东西是想出来的，不是读出来的做科研→想→如何高效率地去想 ↘如何有策略、有组织性地累积地“想”有策略地阅读有逻辑地思考有步骤地总结逻辑，就是前因后果清晰1.科研的步骤提出问题※分析问题解决问题2.提出问题计划书中，导师会在所关心的领域内提出若干有价值的科研问题，讨论这些问题的意义和贡

2017-12-07 16:22:47 1333

原创《科研有方——科研需要“想好”再“做”》笔记 Chapter1：做科研的准备工作

去图书馆逛的时候看见一本名为《科研有方——科研需要“想好”再“做”》的书，作者是通信网络领域的博士，主要给刚刚进入通信以及计算机领域的博士和硕士研究生讲一些科研方法。虽说我硕士快毕业了，但是研一在上课和随便看书，研二实习了一年，并没有做过学术方面的事情，这次给老师申请的项目的结题标准有论文要求，而且我也要写毕业论文了，可以说这本书出现的时机刚好，虽说我没有大把的时间去搞科研，但是读完这本书应该能让我

2017-12-07 15:43:18 2046

原创 IPV6 DNS服务器地址列表

教育网DNS服务器:北京邮电大学DNS服务器 2001:da8:202:10::36 2001:da8:202:10::37 北京科技大学DNS服务器 2001:da8:208:10::6加入”Google Over IPv6”计划的DNS:Hurricane Electric DNS ordns.he.net

2017-10-26 11:47:35 97452 1

原创 MAC下Virtual Box安装XP虚拟机，以及安装后无法上网的解决方法

安装XP虚拟机环境：macOSVirtual box装XP需要非ghost的安装盘，不知道为什么Xp纯净版非ghost安装盘下载以及CDKEY： http://www.xitongcheng.com/jiaocheng/xtazjc_article_28171.htmlVirtual box安装完XP后上不去网点开设备管理器后发现网卡有问号需要联网安装驱动，可是网卡有问题怎么联网。。在虚拟机装个集

2017-10-16 10:13:50 3336

原创 HIVE获取最新分区的数据的方法

场景以dt（日期）分区的hive表，获取最新一天的分区数据如果是普通的SQL的话，下面这样写就可以了，但是hive中这种写法会报错SELECT*FROM xxxWHERE dt=(SELECTmax(dt)FROMxxx)解决方法在hive里，要用alias才能获取分区中的数据，而且查询条件（WHRER）中还必须带有分区字段（dt），否则会报错SELECTb.item as `it

2017-09-06 02:04:27 29494 1

原创常用排序算法总结

这种东西，总是忘，还是不熟，也不关心，太笨了，随便总结一下，可能写的还不对，有错请指出

2017-08-25 02:58:47 1252

转载 SpringMVC+FreeMarker的使用

之前用Java写Web都是用的HTML静态页面，重复的代码很多，基本是都是复制的，让人看起来很乱而且不好维护，FreeMarker使得代码更加整洁、更易维护，而且简化了后端的处理逻辑，简单易上手，下面介绍一下基本使用方法。一、POM 中增加依赖 <dependency> <groupId>org.freemarker</groupId>

2017-08-24 01:55:39 516

原创 Java List按大小分片，平均切分

写代码时有时需要将List按XX大小分片，或者均分成几个List，此时最好不要new很多新的List然后向里面add，这样做效率很低，下面介绍两种高效分片的方法。 1. 按大小分片直接用guava库的partition方法即可 public static void main(String[] args) { List<String> ls = Arrays.asL

2017-08-19 13:59:12 22741 3

转载 Pycharm Mac安装

下载链接:https://confluence.jetbrains.com/display/PYH/Previous+PyCharm+Releases选择：Version 4.5.5 (build 141.3058) May 11th, 2016下载dmg激活注册user name: EMBRACEkey:14203-12042010

2017-06-03 10:52:31 3219

原创 Python sorted 对字典列表

>>> s[{'id': 3}, {'id': 1}, {'id': 2}]>>> sorted(s, cmp = lambda x,y:cmp(x["id"],y["id"]))[{'id': 1}, {'id': 2}, {'id': 3}]>>>

2017-05-27 11:51:03 624

原创 JavaScript Set集合的并集，交集，差集

/** * 返回两个集合的并集 */function union(thisSet, otherSet) { //初始化一个新集合，用于表示并集。 var unionSet = new Set(); //将当前集合转换为数组，并依次添加进unionSet var values = Array.from(thisSet); for (var i = 0; i < values.leng

2017-04-19 02:05:03 7979

转载 Python random模块（获取随机数）常用方法和使用例子

转自：http://www.jb51.net/article/50066.htm随机浮点数random.randomrandom.random()用于生成一个0到1的随机浮点数: 0 random.uniformrandom.uniform(a, b)，用于生成一个指定范围内的随机符点数，两个参数其中一个是上限，一个是下限。如果a > b，则生成的随机数n:

2016-08-28 10:13:08 10948 1

转载 The Zen of Python

一共19条，由Tim Peters总结，在Python命令行里打import this就可以看到这些内容为了防止在翻译的过程中丢失词意，在括号里注明了更全面一些的原意Beautiful is better than ugly.1，美比丑好Explicit is better than implicit.2，显式（清晰、明确）比隐式（含蓄、暗示）好

2016-07-27 16:01:04 397

转载 linux文本处理三剑客（三）：awk命令详解

awk命令详解转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2858470.html

2016-07-18 20:20:08 541

转载 linux文本处理三剑客（二）：sed命令详解

sed命令详解转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2856901.html

2016-07-18 20:09:42 462

转载 linux文本处理三剑客（一）：grep命令详解

grep命令详解转自：http://www.cnblogs.com/ggjucheng/archive/2013/01/13/2856896.html

2016-07-18 19:35:57 625

原创 pandas和数据库进行交互（以mysql为例）

pandas提供了将数据便捷存入关系型数据库的方法在新版的pandas中，主要是以sqlalchemy方式与数据库建立链接支持Mysql、postgresql、Oracle、MS SQLServer、SQLite等主流数据库本例以MySql为代表，展示将从tushare中获取到的股票数据存入数据库的方法其他类型数据库请参考sqlalchemy官方文档的create_engine部分

2016-07-17 22:34:32 36024

原创标签传播算法（LPA）Python实现

标签传播算法（LPA）的做法比较简单：第一步：为所有节点指定一个唯一的标签；第二步：逐轮刷新所有节点的标签，直到达到收敛要求为止。对于每一轮刷新，节点标签刷新的规则如下：对于某一个节点，考察其所有邻居节点的标签，并进行统计，将出现个数最多的那个标签赋给当前节点。当个数最多的标签不唯一时，随机选一个。注：算法中的记号 N_n^k 表示节点 n 的邻居中标签

2016-07-07 17:35:09 10587 2

原创决策树（ID3，C4.5）Python实现

看了《统计学习方法》就尝试写了个简单的决策树，使用信息增益（ID3）或者信息增益率（C4.5），但是没弄好剪枝，自己写的剪枝一剪就只剩根节点和一个叶子节点了，目前只有训练和预测的功能，容易过拟合。

2016-06-26 15:24:40 1394

转载用python从pdf中提取信息，转为txt或者html

主要用到了pdfminer这个库原文地址：http://www.bkjia.com/Pythonjc/1073800.html示例代码# -*- coding: utf-8 -*- from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom

2016-06-19 10:46:27 9671 1

原创在sklearn中使用DataFrame的一些问题

问题1 DataFrame能直接做训练集和测试集吗？猜想最近使用sklearn的模型的时候发现训练集可以直接传入pandas的DataFrame进行训练，而且进行预测的时候也可以直接传入DataFrame，我以为sklearn可以直接识别DataFrame中数据列的顺序，即使列的顺序是乱的也可以直接进行预测，于是做了个测试。测试这里训练集的x_train，测试集是x_test：

2016-05-17 22:00:49 6094 1

原创 pandas笔记，长期记录不会的知识点~

1，如果有些列用不到了，用drop([列名],axis=1)去掉，别用del。 2，groupby后的对象是一个个的DataFrame，虽然不能print出来，但是可以使用apply方法，此时的apply传入的参数x就是一个个的DataFrame。 3，DataFrame需要有多个约束条件的时候，不能用and，可以用多个[]，例如：temp3[temp3.Final_in_ZD

2016-05-17 19:56:11 1908

原创 python学习笔记，长期记录不会的知识

推荐大家去看《Effective Python》，看了以后觉得以前的代码都白写了+_+

2016-05-17 19:54:23 743

原创 setuptools升级7+引发的错误

今天用pip install包的时候，下载完成后报了以下错误ValueError: A 0.7-series setuptools cannot be installed with distribute. Found one at /usr/local/lib/python2.7/dist-packages/setuptools-20.7.0.post20160415-py2.7.egg

2016-04-15 10:27:37 2361

转载 python持久性管理pickle模块详细介绍

pickle可以保存python对象，方便以后的使用，可以用来保存模型，使用方法：import cPickle as picklehi = {1:{1:2,3:4},2:{2:3,3:8}}f = open('wordict','wb')pickle.dump(hi,f,1)f.close()f = open('wordict','rb')pi = pickle.load(f)f

2016-02-24 10:11:27 574

原创 pandas不能在pycharm中使用plot()方法显示图像的解决方法

最近用了pycharm，感觉还不错，就是pandas中Series、DataFrame的plot()方法不显示图片就给我结束了,但是我在ipython里就能画图以前的代码是这样的import matplotlib.pyplot as pltfrom pandas import DataFrame,SeriesSeries([4,5,7]).plot()找了半天发现只要加个pl

2016-01-12 17:29:00 34942 12

原创 windows下sklearn的安装

之前只在linux下用过sklearn,前几天在windows先也装了sklearn，之前显示安装成功，结果各种不能用主要是sicpy报错，然后又发现scipy安装的时候需要numpy+mkl(可选的pillow)在这个网站http://www.lfd.uci.edu/~gohlke/pythonlibs/#numpy，位数和系统版本数都写的很清楚下载的numpy+mkl、pillow

2016-01-08 09:55:27 3043

原创几个pandas数据处理中的常用操作

记几个常用的函数，具体用法去官网查啦import的惯例：import pandas as pdfrom pandas import Series,DataFrame显示一些数字特征：df.describe()#显示很多，均值，标准差，分位数等等df.quantile(0.75)#显示3/4分位数df.std()#显示标准差，样本标准差？读取存在csv中的dataframe

2016-01-08 09:38:28 33479

原创协同过滤的简单实现

数据集：http://grouplens.org/datasets/movielens/u_mr{user:{movie:rating,},}转换为m_ur{movie:{user:rating,},} 相关系数(similarity)计算：欧几里得距离；皮尔逊相关系数；其他还有Jaccard系数，曼哈顿距离算法输入：两个暂时用字典表示的{key:val

2015-12-28 14:25:13 422

原创构造验证码训练集

1，生成带有字符的图片使用PIL库中的Image，ImageFont，ImageDraw三个模块im = Image.new("L",(420,80),255)dr = ImageDraw.Draw(im)#录入字体文件，在网上下相关字体，不用就是默认的font = ImageFont.truetype("micro.ttf",48)#在画布上写字，text是要录入的字符串

2015-12-28 14:20:50 2557

原创 knn聚类测试

1，任务介绍在kaggle上做的最简单的一个题题目地址:https://www.kaggle.com/c/street-view-getting-started-with-julia训练集：由下图所示的图片和图片对应字符组成测试图片就是和右边类似的图片类似的图片目的是识别测试图片中的字符这里用的都是20*20的小图片，便于处理，用大图片可能会增加准确率2，首先把图片转为矩阵#

2015-12-27 22:53:14 1527

原创用kmeans对图片像素进行聚类

用kmeans对图片像素进行聚类对sklearn中kmeans的简单应用1，获得示例图像在scipy.misc 模块中有一个函数可以载入lena图像from scipy import misclena = misc.lena()plt.subplot()plt.imshow(lena,cmap=plt.cm.gray)使用灰度颜色表把图显示出来因为把图像转为矩阵的话，矩阵中的值就是灰度

2015-12-27 21:19:43 14013 3

原创 python统计《悲惨世界》中出现次数最多的20个单词并绘制柱状图

处理的数据像这样的csv文件，已经统计好了，用mapreduce处理的you,3768i,3930not,3981this,4208at,4292on,4714with,4737which,5506is,6504had,6564his,6813it,7026that,8413was,9251he,10280in,11813to,14663a,15366and

2015-11-07 21:52:30 2973

原创 python在Windows下将.py转换成.exe文件

到https://codeload.github.com/pyinstaller/pyinstaller/zip/develop下载pyinstaller-develop.zip随便解压到文件夹里，这里我解压到C:\Python27\pyinstaller-develop中去了我这里在这个文件夹里建个了ready文件夹，放进了准备生成exe文件的python脚本之后进入pyinstal

2015-11-01 11:24:53 3376

原创 hadoop2.7.1中用原生python编写mapreduce

之前用到的hadoop命令:创建目录：hadoop fs -mkdir [-p] dirname列出目录：hadoop fs -ls dirname删除文件或目录：hadoop fs -rmr filename/dirname上传文件：hadoop fs -put file filename/dirname启动hadoop：sbin/start-all.sh关闭hado

2015-10-30 13:21:58 2192

原创 hadoop2.7.1文基础操作测试

配置好上篇文章的hadoop集群之后，接下来进行一些基础的操作一下操作在hadoop-2.7.1文件夹中进行格式化hdfs文件系统 hadoop namenode -format进入sbin中启动hadoop，直接start-all了，对于我这种初学者来说简单粗暴 cd sbin/start-all.sh创建个目录：hadoop fs -mkdir -p /data/

2015-10-30 11:36:22 666

原创 hadoop2.7.1在ubuntu上的集群配置

一、节点分配三部在VM上建立的Ubuntu虚拟机,上网方式用的NAT，使用Hadoop的用户名都叫hadoop，主机名、ip配置如下主机名IPmaster192.168.226.160slave1192.168.226.161slave2192.168.226.162二、预装软件我当然不是一台一台配

2015-10-30 11:12:52 1048

转载 hadoop的五个守护进程

一般如果正常启动hadoop，我们可以在master上通过jps命令看到以下5个daemons:[root@master ~]# jps19803 SecondaryNameNode19994 TaskTracker31144 Jps19571 NameNode 19672 DataNode19887 JobTracker

2015-10-28 10:06:53 1414

Java大学实用教程实验指导[耿祥义编著][习题解答]

空空如也