自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 收藏
  • 关注

原创 修改CentOS语言

修改CentOS语言vi /etc/profileLANG = "en_US.UTF-8"export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL LANGsource /etc/profile

2020-09-08 10:33:51 18

原创 看IMEI和IMSI

看IMEI和IMSI

2017-09-14 09:58:04 2513 1

原创 Mysql技巧

一、慎用Float数据类型float类型是根据IEEE754标准使用二进制格式编码实数数据,对于一些小数,比如59.95,float类型会存储了二进制中最接近59.95的值,用十进制表示等于59.950000762939。SELECT * FROM t_refresh WHERE rate = 59.95 Result:empty set;no rows match, 因为rate的实际存储值

2017-09-07 08:45:39 327

原创 Python技巧

一、从二维数据表中提取某列数据>>> lst = [(1,2,3), (1,2,3), (1,2,3)]>>> lst = [t[2] for t in lst]>>> lst[3, 3, 3]二、二维数据表中数据转置>>> lst = [(1,2,3), (1,2,3), (1,2,3)]>>> list(zip(*lst))[(1, 1, 1), (2, 2, 2), (3, 3, 3

2017-09-07 08:15:36 354

原创 MySQL数据表操作

清空MySQL数据库中的数据1、DELETE FROM tbName 2、TRUNCATE TABLE tbName 3、效率上TRUNCATE比DELETE快,truncate删除后不记录日志,不可恢复数据; delete的效果类似将记录逐条删除; 而truncate相当于保留表结构,重建表,状态相当于新表。修改表1、

2017-09-01 11:20:55 313

原创 C# MySql DevExpress开发遇到的编码问题

1、Mysql编码都设置成了UTF8,可通过命令查看:SHOW VARIABLES LIKE 'character_set_%';2、Mysql里面存储了有藏文、阿拉伯字母、希伯来文的UTF8编码的文字。在Mysql GUI(Workbench,Navicat)下直接使用SELECT语句,这些文字会显示乱码; 3、使用SET NAMES UTF8; SELECT * FROM tablename;

2017-08-25 08:51:18 721

原创 通过Plink,SOCKS上网

1、远程一台Linux主机2、通过下面命令,打开本地的1080端口连接上去:plink.exe -N username@IP -pw password -D 127.0.0.1:10803、配置本地的FirefoxSOCKS主机:127.0.0.1端口:1080选择 SOCKS v5复选 远程DNS

2017-08-24 21:48:21 2158

转载 MySQL大数据量分页SQL语句优化

http://blog.sina.com.cn/s/blog_a98ea0d90101qsua.html分页程序原理很简单,这里就不多说了,本篇文章主要说的是在数据表记录量比较大的情况下,如何将分页SQL做到更优化,让MySQL执行的更快的方法。 一般的情况下,我们的分页SQL语句是这样的: 查看代码 打印 1 SELECT * FROM table ORDER BY id LIMIT 10

2017-08-16 11:23:26 756

原创 Python非官方安装包

国内下载Python的各种官方安装包,速度较慢。一个非官方的安装包网站:http://www.lfd.uci.edu/~gohlke/pythonlibs/

2017-08-01 15:40:04 1307

原创 MongoDB 杂

MongoDB的服务启动,简单命令,以及Python操作MongoDB

2017-07-31 09:32:20 273

转载 Python操作Mongodb

http://www.cnblogs.com/diaosir/p/6507178.html

2017-07-29 15:48:12 238

转载 MongoDB高级查询详细

http://www.cnblogs.com/knowledgesea/p/4634464.html

2017-07-28 16:26:21 214

原创 [MLLib]二、MLLib基本数据类型

MLLib提供了一系列基本数据类型以支持底层的机器学习算法。主要类型包括:本地向量、标注点(Labeled Point)、本地矩阵、分布式矩阵等。单机模式存储的本地向量与矩阵,以及基于一个或多个RDD的分布式矩阵。其中本地向量与本地矩阵作为公共接口提供简单数据模型,底层的线性代数操作有Breeze库和jblas库提供。标注点类型用来表示监督学习(Supervised Leaning)中的一个训练样本

2017-01-04 16:10:50 557

原创 [MLLib]一、Spark MLLib介绍

一、机器学习是一门人工智能的科学。利用数据或以往的经验,以此优化计算机程序的性能标准。英文定义: A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in

2017-01-04 10:36:13 4716

原创 【网络攻防】第一章 准备

一、简介 1.1 什么时黑客 黑客,电脑专家 红客,维护国家利益 骇客,破解者1.2入侵步骤 1.搜索 了解对象,手段:1,在Internet搜索,2,社会工程3,垃圾数据搜寻4,域名信息收集5,非侵入性的网络扫描。难以防范 2.扫描 使用扫描软件对目标进行扫描,寻找潜在漏洞,含以下信息:1、每台局域网、广域网设备的品牌和型号2、开放的端口及服务(80端口、邮件服务等)3、操作系统在

2016-12-22 22:23:24 831

原创 [完]Hadoop中DataNode在格式化Namenode后无法启动。

一般情况下,出现这个问题的原因是namenode和datanode的clusterID不一致。namenode每次格式化时,会更新clusterID,但是datanode只会在首次格式化时确定,因此就造成不一致现象。

2016-11-18 16:45:46 2745

原创 [完]机器学习实战 第十四章 利用SVD简化数据

本章内容:SVD矩阵分解推荐引擎利用SVD提升推荐引擎的性能餐馆可分为很多类别,不同的专家对其分类可能有不同依据。实际中,我们可以忘掉专家,从数据着手,可对记录用户关于餐馆观点的数据进行处理,并从中提取出其背后的因素。这些因素可能会与餐馆的类别、烹饪时采用的某个特定配料,或其他任意对象一致。然后,可利用这些因素来估计人们对没有去过的餐馆的看法。提取这些信息的方法称为奇异值分解(Singula

2016-10-31 21:38:11 3254 6

原创 [完]机器学习实战 第十三章 利用PCA来简化数据

本章内容降维技术主成分分析(PCA,Principal Component Analysis)对半导体数据进行降维处理体育比赛中,人们面对的原本是百万像素的数据,但只有球的三维位置才是最重要的,这就被称为降维(dimensionality reduction)。在低维下,数据更容易进行处理。通常,在应用其他机器学习之前,须先识别出其相关特征。一、降维技术对数据进行简化的原因:多维数据难以显

2016-10-26 19:33:41 2190 1

原创 [完]机器学习实战 第十一章 使用Apriori算法进行关联分析

本章内容:Apriori算法频繁项集生成关联规则生成投票中的关联规则发现从大规模数据集中寻找物品间的隐含关系被称作关联分析(association analysis)或者关联规则学习(association rule learning)。寻找物品的不同组合十分耗时,计算代价高,蛮力搜索方法不能解决这个问题。使用Apriori算法可解决这个问题。一、关联分析关联分析是一种在大规模数据集中寻找

2016-10-01 21:02:10 3547 2

原创 机器学习实战 第十章 利用K-均值聚类算法对未标注数据分组

# coding=utf-8from numpy import *def loadDataSet(fileName) : dataMat = [] fr = open(fileName) for line in fr.readlines() : curLine = line.strip().split('\t') fltLine = map(f

2016-09-28 22:40:59 680

原创 Hive安装过程遇到的问题

问题:$ hiveLogging initialized using configuration in jar:file:/usr/local/hive/lib/hive-common-1.2.1.jar!/hive-log4j.propertiesException in thread "main" java.lang.RuntimeException: java.lang.RuntimeExc

2016-09-28 11:21:40 3436

原创 [完]JavaScript弹出框、对话框、提示框、弹窗

JS三种常见的对话框,点击按钮常用的六种提示框和操作,以及弹出独立的窗口。

2016-09-26 10:01:51 1926

原创 [完]CSS隐藏滚动条

使用CSS隐藏滚动条,body { overflow-x: hidden; overflow-y: hidden;}

2016-09-26 09:54:31 365

原创 Hive安装、配置,HQL,实践

一、Hive安装官方下载地址:http://www.apache.org/dyn/closer.cgi/hive/,可在其中寻找镜像下载安装命令:wget http://mirror.bit.edu.cn/apache/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gzsudo tar -zxf apache-hive-1.2.1-bin.tar.gz

2016-09-24 22:22:55 957

原创 [完]基于Hadoop的数据仓库Hive 基础知识

Hive是基于Hadoop的数据仓库工具,可对存储在HDFS上的文件中的数据集进行数据整理、特殊查询和分析处理,提供了类似于SQL语言的查询语言–HiveQL,可通过HQL语句实现简单的MR统计,Hive将HQL语句转换成MR任务进行执行。一、概述1-1 数据仓库概念数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定

2016-09-21 15:47:38 19422 4

原创 [完]机器学习实战 第九章 树回归

将数据集切分成很多份易建模的数据,然后利用线性回归技术建模。如果首次切分后仍难以拟合线性模型就继续切分,在这种切分模式下,树结构和回归法相当有用。CART(分类回归树)算法,用于构建二元树并处理离散型或连续性数据的切分。两种剪枝技术,预剪枝和后剪枝。利用Tkinter绘制GUI。将Matplotlib集成在Tkinter绘制的GUI中。

2016-09-20 13:33:06 6790 5

原创 [完]Spark 基础知识

为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的IO开销;为了使编程更容易,Spark使用简练、优雅的Scala语言编写,基于Scala提供了交互式编程体验。与Hadoop相比,Spark使用十分之一的计算资源,可获得比Hadoop快3倍的速度。一、Spark与HadoopSpark特点:运行速度快:采用DAG(Directed Acyclic Graph,有向无环图)执行引擎,以

2016-09-19 10:49:12 2599

原创 机器学习实战 第八章 预测数值型数据:回归(Regression)

首先介绍线性回归,然后引入局部平滑技术,更好地拟合数据。接着探讨回归在“欠拟合”情况下的缩减(shrinkage),探讨偏差和方差的概念。用线性回归找到最佳拟合直线优点:结果已于理解,计算上并不复杂。 缺点:对非线性的数据拟合不好。 使用数据类型:数值型和标称型。回归方程(regression equation),回归系数(regression weights),求回归系数的过程就是回归。说到回

2016-09-16 12:11:27 3673 1

原创 [完]Spark安装学习实践

介绍如何在Hadoop2.60伪分布式的基础上,安装Spark。在Spark Shell下编写代码,和编写Scala和Java独立程序,以及简单的RDD操作。

2016-09-14 20:36:39 1268

原创 [完]PHP Array 创建、索引、添加、删除、判断是否存在指定元素

PHP关于数组array的创建、索引、添加、删除、判断是否存在指定元素。

2016-09-14 17:12:09 2915

原创 [完]机器学习实战 第七章 利用AdaBoost元算法提高分类性能

【参考书籍】机器学习实战(Machine Learning in Action)AdaBoost,一种元算法(meta-algorithm)或者集成方法(ensemble method),是对其他算法进行组合的一种方式。有人认为AdaBoost是最好的监督学习的方法。使用集成算法时,可是不同算法的集成,也可是同一算法在不同设置下的集成,还可是数据集不同部分分配不同分类器之后的集成。优点:泛化错误率

2016-09-14 11:44:29 2052 2

原创 [完]虚拟机中安装X86版的Android系统

介绍了如何在虚拟机环境下安装X86 Android 4.4,其中:1、解决了安装系统后,一直连接网络不能进入系统的问题。2、创建分区的时候,各种选项的选择步骤。

2016-09-09 17:45:26 14523 1

原创 Windows虚拟机中配置 域网络 遇到的问题

虚拟机安装Windows 7,默认安装的是Windows Home Basic版,安装Ultimate版,才可以将安装虚拟机加入到域内。在安装过程中,输入序列码的时候,选择安装Ultimate版本。注意将安装的虚拟机网络设置成“桥连接”模式。远程登录Windows 2008,需要使用Ctrl+Alt+Delete时,采用Ctrl+Alt+End。在安装的虚拟机里,需要使用Ctrl+Alt+De

2016-09-08 17:03:23 2769

原创 [完]机器学习实战 第六章 支持向量机(Support Vector Machine)

支持向量机(Support Vector Machine)是最好的现成的分类器,“现成”指的是分类器不加修改即可直接使用。基本形式的SVM分类器就可得到低错误率的结果。SVM有很多实现,文中采用最流行的一种实现,即序列最小优化(Sequential Minimal Optimization,一种求解支持向量机二次规划的算法)算法,还会介绍如何使用一种称为核函数(kernel)的方式将SVM扩展到更多的数据集上。

2016-09-06 23:03:48 2635 1

原创 [完]Numpy中矩阵对象(matrix)的属性和方法

numpy模块中的矩阵对象为numpy.matrix,本章介绍矩阵对象matrix的属性和方法,包括矩阵数据的处理,矩阵的计算,以及基本的统计功能,转置,可逆性等等,包括对复数的处理,均在matrix对象中。

2016-09-04 22:47:10 801

原创 [完]Python函数 range()和arange()

介绍了range()、arange()的功能和区别。

2016-09-04 12:03:40 12135

原创 [完]机器学习实战 第五章 Logistic回归(Logistic Regression)

Logistic回归的目的是寻找一个非线性函数Sigmoid的最佳拟合参数,求解过程可由最优化算法来完成,一般采用梯度上升算法,此算法又可简化为随机梯度上升算法。简化前后的算法效果相当,但占用更少的计算资源。并且随机梯度上升算法是一个在线算法,可在新数据到来时就完成参数的更新,而无需重新读取整个数据集来进行批处理。机器学习的一个重要问题是处理缺失数据,处理方法取决于实际需求。

2016-09-04 11:16:04 2608 2

原创 [完]机器学习实战 第四章 基于概率论的分类方法:朴素贝叶斯(Naive Bayesian Classification)

介绍了基于概率论的分类方法--朴素贝叶斯。朴素:条件独立性、特征同等重要。程序实现了对文本进行分类,准备数据:从文本中构建词向量;训练算法:从词向量计算概率;构建分类器,下溢出,去自然对数。示例介绍垃圾邮件过滤,获取区域倾向,并且使用留存交叉验证。并且介绍一个获取RSS源的包和方法。

2016-09-02 21:00:42 1379

原创 [完]PHP 找不到scandir()函数“Call to undefined function: scandir()”

标题中出现的问题的可能原因,和解决方法。最后,介绍了scandir()函数。

2016-09-02 11:41:39 1480

原创 [完]Python,解决Matplotlib制图时的中文问题

解决Matplotlib制图时,遇到的中文问题。可在代码中动态设置(推荐方式),不需要修改配置文件。

2016-09-01 20:01:37 1038

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除