星之空殇-CSDN博客

原创 Python解决matplotlib画图中文显示异常问题

1、安装开源库pyplotzpip install pyplotz2、引入包from pyplotz.pyplotz import PyplotZfrom pyplotz.pyplotz import pltpltz=PyplotZ()pltz.enable_chinese()3、使用pltz代替pyplot ...

2018-11-05 21:10:25 868 1

原创 Spark的reduceByKey和reduce

reduce的操作对象是列表。如rdd={1,2,3,3}rdd.reduce((x,y)=> x+y)得到结果是：9reduceByKey()的操作对象是元组。如 rdd1={('panda',3),('pink',4)},rdd2={('panda',(3,2)),('pink',(4,3))}rdd.reduceByKey((x,y)=>x+y)得到结果{('...

2018-10-16 23:38:16 1882

原创二、TopN问题解决方案

1、使用hadoop的map/reduce解决TopN问题（唯一键）首先使用SequenceFileWriterForTopN函数生成sequence文件，SequenceFileWriterForTopN函数代码如下：package chap03.mapreduce;import java.io.IOException;import java.net.URI;import j

2018-01-03 22:11:43 1641

原创一、二次排序

1、软件版本jdkjdk1.7.0_67hadoophadoop-2.6.0sparkspark-1.4.0-bin-hadoop2.6分别下载上述源码，并进行配置，打开/etc/profile设置环境变量如下：#set java envexport JAVA_HOME=/opt/java/jdk1.7.0_67export JRE_HOME=${JAVA_HOME}/jreexport C

2018-01-02 16:19:46 1392

原创 python数据分析（预测性分析与机器学习）

本文涉及到的主题如下所示：预处理基于逻辑回归的分类基于支持向量机的分类基于ElasticNetCV的回归分析支持向量回归基于相似性传播均值漂移算法遗传算法神经网络决策树算法

2017-12-06 14:04:03 12026 1

原创 python数据分析(分析文本数据和社交媒体）

1、安装NLTKpip install nltk至此，我们的安装还未完成，还需要下载NLTK语料库，下载量非常大，大约有1.8GB。可以直接运行代码下载、代码如下：import nltknltk.download()这样可以直接下载NLTK语料库了。2、滤除停用词、姓名和数字

2017-12-04 10:24:34 18024 5

原创 python数据分析（应用数据库）

本文介绍主题如下：基于sqlite3的轻量级访问通过pandas访问数据库SQLAlchemy的安装与配置通过SQLAlchemy填充数据库通过SQLAlchemy查询数据库Pony ORMDataset：懒人数据库PyMongo与MongoDB利用Redis存储数据Apache Cassandra1、基于sqlite3的轻量级访问SQLite是一款非常流行的关系型数据库，由于

2017-11-29 19:27:43 3153

原创 python数据分析（数据可视化）

数据分析初始阶段，通常都要进行可视化处理。数据可视化旨在直观展示信息的分析结果和构思，令某些抽象数据具象化，这些抽象数据包括数据测量单位的性质或数量。本章用的程序库matplotlib是建立在Numpy之上的一个Python图库，它提供了一个面向对象的API和一个过程式类的MATLAB API，他们可以并行使用。

2017-11-28 10:12:13 73578 7

原创 python数据分析（数据检索、加工与存储）

1、利用numpy和pandas对CSV文件进行写操作。a)：numpy的savetxt()函数是与loadtxt()相对应的一个函数，它能以诸如CSV之类的区隔型文件格式保存数组。代码：import numpy as npnp.random.seed(42)a=np.random.randn(3,4) #生成3行4列0到1之间的随机数组a[2][2]=np.nanprint

2017-11-23 14:25:53 857

原创 python数据分析（pandas入门）

1、pandas数据结构之DataFrameDataFrame生成方式：1、从另一个DataFrame创建。2、从具有二维形状的NumPy数组或数组的复合结构生成。3、使用Series创建。4、从CSV之类文件生成。下面介绍DataFrame的简单用法：a)：读取文件代码：from pandas.io.parsers import read_csvdf=read_csv(

2017-11-21 14:58:38 5907 1

原创 python数据分析（统计学和线性代数）

1、求矩阵的逆代码#coding:utf8import numpy as npA=np.mat("2 3 4; 4 2 6;10 -4 18")print "A\n",Ainverse=np.linalg.inv(A) #求矩阵的逆print "inverse of A\n",inverseprint "Check\n",A*inverse #检验相乘是否为单位矩阵pr

2017-11-19 14:58:49 1519

原创 LinkedList+HashMap实现LRU算法

package Interview;import java.util.HashMap;import java.util.Map;/* * 实现最近最少使用算法，且get，put时间复杂度为O(1) * */public class LRUCache { private Map cache; DLinkedList tail=null; DLinkedList head=n

2017-08-15 21:30:34 1463

原创排序算法

插入排序 public static int helperSort(int[]nums,int left,int right){ int tem=nums[left]; while(left<right){ while(left=tem) right--; nums[left]=nums[right]; while (left<right && nums[le

2017-07-24 21:54:05 331

原创树的遍历（前序，中序，后续，栈与递归实现）

树的定义public class TreeNode { public TreeNode left; public TreeNode right; public int val; public TreeNode(int val){ this.val=val; this.left=null; this.right=null; }}前序遍历public void

2017-07-24 21:50:20 481

原创 Spark机器学习（Chapter 04）推荐系统

代码：#coding:utf-8from pyspark import SparkContextsc = SparkContext("local[4]", "MovieLens Spark App")rawData=sc.textFile("../02/ml-100k/u.data")print rawData.first()rawRating=rawData.map(lambda

2017-06-26 22:42:19 797

转载 spark机器学习（Chapter 03）--使用spark-python进行数据预处理和特征提取

1、首先需要准备MovieLens数据集，并查看数据基本情况数据主要包含3个数据集：u.data,是用户对电影的评分数据，u.item是电影的基本数据，u.user是用户的基本数据。2、数据分析及可视化表示2.1用户数据分析及可视化对用户数据进行基本统计如下：#coding:utf-8from pyspark import SparkContextsc = SparkCo

2017-06-24 23:03:03 3461 1

原创 spark机器学习（Chapter 01）

代码：#coding:utf-8from pyspark import SparkContextsc=SparkContext("local[2]","First Spark App");#将csv格式数据映射到record数组中，record[0],record[1],record[2]data=sc.textFile("data/UserPurchaseHistory.csv"

2017-06-23 20:14:04 422

转载 spark常用函数：transformation和action

1、RDD提供了两种类型的操作：transformation和action所有的transformation都是采用的懒策略，如果只是将transformation提交是不会执行计算的，计算只有在action被提交的时候才被触发。1）transformation操作：得到一个新的RDD，比如从数据源生成一个新的RDD，从RDD生成一个新的RDDmap(func):对调用map的RDD数

2017-06-23 20:09:13 912

原创最长子序列问题

1、最长递增子序列问题（可以不连续）a) .使用动态规划，时间复杂度为O(n*n)解法：public int lengthOfLIS(int[] nums) { if(nums.length==0) return 0; int[] dp=new int[nums.length]; for(int i=0;i<nums.length;i++)

2017-06-14 11:15:41 386

原创最长子序列回文问题，Longest Palindromic Subsequence

Given a string s, find the longest palindromic subsequence's length in s. You may assume that the maximum length of s is 1000.Example 1:Input: "bbbab"Output:4One possible longest palin

2017-06-03 16:01:23 416

原创 Linux解压指定目录下zip和rar文件

#!/bin/bashfunction unzip_file(){echo "$1"for file in `ls $1 ` do if [ -d $1"/"$file ] then unzip_file $1"/"$file else if [ "${file##*.

2017-05-11 21:20:13 3992

原创画出使用分类器得到的决策边界

获取数据集，并画图代码如下：import numpy as npfrom sklearn.datasets import make_moonsimport matplotlib.pyplot as plt# 手动生成一个随机的平面点分布，并画出来np.random.seed(0)X, y = make_moons(200, noise=0.20)plt.scatter(X[:,0]

2017-04-23 20:53:43 25478

转载 matplotlib基本画图示例

在这里我介绍一下plot方法的函数的使用。Series.plot方法的函数：参数说明label用于图例的标签ax要在其上进行绘制的matplotlib subplot对象。如果没有设置，则使用当前matplotlib subplotstyle将要传给matplotlib的风格

2017-04-22 21:07:47 3817

原创 Windows配置tensorflow

首先安装好Python3.5,我的是64位的。下载安装对应64位版本Anconda，下载地址https://www.continuum.io/downloads#windows，安装完成后，在系统所有程序里找到Anaconda Prompt，输入清华的仓库镜像，更新包更快：conda config --add channels https://mirrors.tun

2017-04-08 18:45:35 426

转载 Windows上python配置NLTK

转自：点击打开链接For 32-bits windows：1.安装Python（我安装的是Python2.7，目录C:\Python27）可以到CSDN、OSChina、Sina Share等网站下载也可以到Python官网下载：http://www.python.org/2.安装NumPy（可选）到这里下载：http://sourcef

2017-04-08 18:30:05 500

原创 python各种库安装

Python安装中默认会安装pip工具，要安装各种库，只需要进入www.lfd.uci.edu/~gohlke/pythonlibs网站，下载对应的库文件；例如我需要安装scipy库:进入网站，找到需要安装的scipy，下载对应Python版本的.whl文件。在终端执行命令：python -m pip install -U scipy-0.19.0-cp27-cp27m-win_amd

2017-03-31 20:03:47 549

原创如何使用ip代理爬虫

import urllibimport socketimport urllib2import timefrom bs4 import BeautifulSoupurl = 'http://www.xicidaili.com/nn/'target="https://msdn.microsoft.com"dirt={}proxy = {'http': '223.15.151.149

2017-03-08 14:55:19 1375

原创求二叉树的高度

package com.djx.tree;public class Tree_Depth { public static void main(String[] args) { // TODO Auto-generated method stub TreeNode root=new TreeNode(0); TreeNode node1=new TreeNode(1);

2016-10-20 22:25:15 532

原创 Linux下C变成MakeFile ，Make 原理及操作

请参照下面网页内容：点击打开链接

2016-08-26 21:30:06 782

原创 Intel SGX设计目标

Intel SGX设计目标可以概括为以下8个方面：1、允许应用程序员保护敏感数据，防止运行在高特权级的流氓软件非法访问或修改。2、使应用程序能够保存的敏感代码和数据的机密性和完整性，而不会中断的合法的系统软件来安排和管理使用平台资源的能力。3、计算设备的使用者能够重新获得平台的控制权，而且可以自由的安装或卸载应用和选择服务。4、使平台能衡量应用程序的受信任的代码，

2016-08-23 15:02:53 771

原创 sudo apt-get build-dep qemu报错

执行sudo apt-get build-dep qemu报错：Reading package lists... DoneE: Unable to find a source package for qemu解决方案：sudo gedit /etc/apt/sources.list在文件中加入如下内容：deb-src ftp://ftp.de.debian.org/de

2016-08-19 21:59:33 2518

原创 OpenSGX 安装编译教程

介绍：英特尔提供的SGX是一个扩展的x86指令集架构，它能让应用程序在叫做enclave的受保护的容器内运行。为不信任特权软件（如：操作系统和虚拟机管理程序）上的应用程序提供隔离的执行和内存保护。通过减少可信计算基（TCB）,SGX提供窄攻击面。掌握了所有的软件组件和硬件，除CPU包外的敌人不能危害到SGX应用的代码和数据。SGX不仅保证了程序代码和数据的完整性，还保证了SGX程序的保密

2016-08-18 21:51:59 4992

原创 python爬虫时报错

爬虫时由于中文报错UnicodeDecodeError: 'ascii' codec can't decode byte 0xe5 in position 0: ordinal not in range(128)解决方案：在代码开头输入如下代码：import sysreload(sys)sys.setdefaultencoding('utf8')

2016-06-23 12:19:08 541

原创 windows下把代码托管到github

首先要在自己的github上新建一个repository。进入项目目录，打开git bash。然后依次输入如下代码：git init git add . git commit -m "first commit" git remote add origin https://github.com/dengjiaxing/HibernateDemo.git git push -u

2016-04-07 00:41:51 489

原创 struts2文件下载

新建包com.action，在包中新建类DownloadAction，类代码如下：package com.action;import java.io.InputStream;import org.apache.struts2.ServletActionContext;import com.opensymphony.xwork2.ActionSupport;public clas

2016-03-28 16:25:22 387

原创 struts2 文件上传

新建包com.action，在包中新建类FileUploadAction，类代码如下：package com.action;import java.io.File;import com.opensymphony.xwork2.ActionSupport;public class FileUploadAction extends ActionSupport{ private st

2016-03-28 16:21:11 281

原创 Spring实例一

新建IHelloWord接口类package com.djx.spring.chapter01;public interface IHelloMessage { public String sayHello();}新建HelloWord类package com.djx.spring.chapter01;public class HelloWord implements IHe

2016-03-20 14:53:49 447

原创 JDBC编程之程序优化

首先，新建包package com.djx.entity;，其中类为 Identity ，实现代码如下：package com.djx.entity;public abstract class Identity { protected Long id; public Long getId() { return id; } public void setId(Long id)

2016-03-16 15:49:05 423

原创 JavaWeb之Servlet编程实例二

使用Servlet可以读取用户输入的信息并跳转页面显示出来，代码如下:LoginServlet代码：package com.djx.sevlet;import java.io.IOException;import javax.servlet.RequestDispatcher;import javax.servlet.ServletException;import javax.

2016-03-16 10:35:46 426

原创 Java之Servlet编程实例一

用Servlet将在浏览器页面输入的数据在控制台打印出来Servlet1，新建LoginServlet类package com.djx.sevlet;import java.io.IOException;import javax.servlet.ServletException;import javax.servlet.http.HttpServlet;import javax

2016-03-15 16:47:18 534

spark机器学习第三章数据集（MovieLens）

空空如也