关闭
当前搜索:

[置顶] 【python keras实战】多层全连接神经网络训练情感分析

情感分析无处不在,它是一种基于自然语言处理的分类技术。其主要解决的问题是给定一段话,判断这段话是正面的还是负面的。 # encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import keras import numpy as np from keras.datasets import imdb ......
阅读(35) 评论(0)

[置顶] 【数据建模 特征编码】one-hot encoding以及运用

主要内容: 1、什么是one_hot编码 2、one-hot在提取文本特征上的应用 3、one_hot编码优缺点分析 一、什么是one_hot编码 one-hot 和 TF-IDF是目前最为常见的用于提取文本特征的方法。下面我们介绍下one_hot编码。 什么是one-hot编码?one-hot编码,又称独热编码、一位有效编码。其方法是使用N位状态寄存器来对N个状态进行编码,每个状态都......
阅读(44) 评论(0)

[置顶] 【centos 清除系统缓存】清除系统缓存的步骤

1、使用free – m命令查看内存使用情况 [root@izbp1f0leha0lvmqfhigzpz code]# free -m total used free shared buff/cache available Mem: 1839 101 534 ......
阅读(28) 评论(0)

[置顶] 【python keras实战】利用VGG卷积神经网络进行手写字体识别

# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import numpy as np from keras.datasets import mnist import gc from keras.models import Sequential, Model from keras.layers im......
阅读(37) 评论(0)

[置顶] 【mysql 错误】1030 Got error 28 from storage engine

My /tmp was %100. After removing all files and restarting mysql everything worked fine. 今天碰到数据库出错 Got error 28 from storage engine 查了一下,数据库文件所在的盘应该没事,应该是数据库用的临时目录空间不够,引用磁盘临时空间不够导致。 解决办法: 清空/tmp......
阅读(28) 评论(0)

[置顶] 【mysql 存储过程】存储过程的应用--数据迁移和更新

数据迁移过程中,往往要更新数据,插入数据,此时运用存储过程,利用脚本自动化完成增删改查,业务逻辑,得心用手。 简单存储过程例子1: CREATE DEFINER=`admin`@`%` PROCEDURE `update_busi_process`(IN idx int(10)) begin SELECT workflow_id into @m1 from busi_process W......
阅读(35) 评论(0)

[置顶] 【python keras实战】用keras搭建卷起神经网络训练模型

端到端的MINIST训练数字识别 MINIST数据集是由LeCun Yang 教授和他的团队整理的,囊括了6万个训练集和1万个测试集,每个样本都是32*32的像素值,并且是黑色的,没有R、G、B三层。我们要做的就是把每一个图片分类到0~9的类别中。 keras自带了训练和测试数据集,数据格式都已经整理完毕,我们所要做的就是搭建模块,并且确保训练集和测试集的数据和模块的参数相吻合。 下面是实战...
阅读(63) 评论(0)

[置顶] 【mysql 缓存】开启MySQL查询缓存

启用MySQL查询缓存可以极大地减低数据库服务器的CPU使用率,实际使用情况是:开启前CPU使用率120%左右,开启后降到了10%。 查看查询缓存情况: mysql> show variables like '%query_cache%'; +------------------------------+----------+ | Variable_name...
阅读(35) 评论(0)

[置顶] 【python 异步IO】Python async/await 介绍

Python3.5增加了内置的async和await关键字。让我们用几个小例子来展示一下这两个关键字如何使用。 如果你不明白什么是“异步编程”,你可以简单地理解它为“在单个进程中同时处理多个任务的一种方法”。我们通常使用的进程经常花费大量的时间等待IO操作的完成。这种IO操作包括客户端请求网络、读取文件、查询数据库等等….同步程序一般是等待IO操作完成后再进行下一个任务,而异步程序则可以在IO操...
阅读(32) 评论(0)

[置顶] 【python 协程】10分钟了解下协程

协程 协程,又称微线程,纤程。英文名Coroutine。 子程序,或者称为函数,在所有语言中都是层级调用,比如A调用B,B在执行过程中又调用了C,C执行完毕返回,B执行完毕返回,最后是A执行完毕。所以子程序调用是通过栈实现的,一个线程就是执行一个子程序。 子程序调用总是一个入口,一次返回,调用顺序是明确的。而协程的调用和子程序不同。 协程看上去也是子程序,但执行过程中,在子程序内部可中断,然后...
阅读(38) 评论(0)

[置顶] 【java I/O模型】 Java 网络IO编程总结

BIO:同步阻塞 AIO:异步 NIO:非阻塞 参考链接:http://blog.csdn.net/anxpp/article/details/51512200...
阅读(23) 评论(0)

[置顶] 【python ip提取】从log日志提取ip

log日志内容如下(myjob.log): 124.90.53.68 - - [05/Feb/2018 11:37:07] "GET /favicon.ico HTTP/1.1" 404 - 61.148.245.145 - - [05/Feb/2018 12:37:44] "GET / HTTP/1.1" 200 - 61.148.245.145 - - [05/Feb/2018 12:37:...
阅读(43) 评论(0)

[置顶] 【python 内建函数】python中函数相关的内建函数

1、filter() 函数式编程的意思就是对序列应用一些函数的工具。例如,基于某一测试函数过滤出一些元素(filter),以及对每队元素都应用函数并运行到最后结果(reduce)。 [root@izbp1f0leha0lvmqfhigzpz code]# python Python 2.7.5 (default, Aug 4 2017, 00:39:18) [GCC 4.8.5 20150...
阅读(52) 评论(0)

[置顶] 【 python pymongo】使用pymongo的例子

MongoDB优点 MongoDB是一个为当代web应用而生的noSQL数据库,它有如下优点: 1、文档型存储。可以把关系型数据库的表理解为一个电子表格,列表示字段,每行的记录其实是按照列的字段顺序排列的值得元组。而存储在MongoDB中的文档被存储为键-值对的形式,值却可以是任意类型且可以嵌套。之前在用关系型数据库的时候,我们把产品信息打散到不同的表中,要通过关系表或者使用join拼接成复...
阅读(42) 评论(0)

[置顶] 【redis 安装和启动】centos 下安装和启动redis

安装redis wget http://download.redis.io/releases/redis-3.2.1.tar.gz tar -zxvf /redis-3.2.1.tar.gz cd redis-3.2.1 make && make install 启动redis $ ./redis-server redis.conf 进入redis $ cd src $ ./redis...
阅读(45) 评论(0)

[置顶] 【python 多线程】线程与进程的关系

主要内容 1、线程与进程的关系 2、GIL全局解释器锁 3、thread和threading 4、Lock 和 Rlock的区别 一、线程与进程的关系 根据上图可以看出,进程包含线程。也就是说默认情况下 一个进程肯定会有一个线程的。 多线程也就是在一个进程里面开出多个线程。多进程里面也可以包含多线程。 多进程之间是不可以直接通讯的。但是由于多线程是被同一个进程包裹,故多线程中资源...
阅读(57) 评论(0)

[置顶] 【python supervisor】在服务器端,如何一直运行你的python代码

方法1: nohup 命令 nohup python *.py & 方法2: 使用supervisor保持python进程运行 Supervisord是一个守护进程的工具,当进程意外终止或服务器掉电起来后,希望进程能够自动运行,supervisord可以很好的为我们做这件事情。同时supervisord也自带监控界面,可以通过浏览器灵活的查看、操作。 安装: ubantu:s...
阅读(267) 评论(0)

[置顶] 【linux pip安装】python包管理工具 pip 安装

下载文件 wget https://bootstrap.pypa.io/get-pip.py --no-check-certificate 执行安装 python get-pip.py 这就安装好了...
阅读(79) 评论(0)

[置顶] 【python 随机数】Python里面如何生成随机数?

主要知识点: 随机整数: random.randint(a,b):返回随机整数x,a 包含范围的随机整数 random.randrange(start,stop,[,step]):返回一个范围在(start,stop,step)之间的随机整数,不包括结束值。 0-1之间的随机浮点数 随机实数:random.random( ):返回0到1之间的浮点数 指定范围的随机浮点数 rando...
阅读(78) 评论(0)

[置顶] python 数据分析 高效的学习路径

一、数据分析师应该具备哪些技能 数据分析人才热度也是高居不下,一方面企业的数据量在大规模的增长,对于数据分析的需求与日俱增;另一方面,相比起其他的技术职位,数据分析师的候选者要少得多。 要明确学习的路径,最有效的方式就是看具体的职业、工作岗位对于技能的具体需求。 我们从拉勾上找了一些最具有代表性的数据分析师职位信息,来看看薪资不菲的数据分析师,到底需要哪些技能。 其实企...
阅读(1038) 评论(0)

[置顶] 【tensorflow CNN】构建cnn网络,识别mnist手写数字识别

#coding:utf8 """ 构建cnn网络,识别mnist input conv1 padding max_pool([2,2],strides=[2,2]) conv2 x[-1,28,28,1] 卷积 [5,5,1,32] -> [-1,24,24,32]->[-1,28,...
阅读(89) 评论(0)

[置顶] 【tensorflow 全连接神经网络】 minist 手写数字识别

主要内容: 使用tensorflow构建一个三层全连接传统神经网络,作为字符识别的多分类器。通过字符图片预测对应的数字,对mnist数据集进行预测。 # coding: utf-8 from tensorflow.examples.tutorials.mnist import input_data import tensorflow as tf import matplotlib.pyplot...
阅读(117) 评论(0)

[置顶] 【spark 读写数据】数据源的读写操作

通用的 Load/Save 函数 在最简单的方式下,默认的数据源(parquet 除非另外配置通过spark.sql.sources.default)将会用于所有的操作。 Parquet 是一个列式存储格式的文件,被许多其他数据处理系统所支持。Spark SQL 支持对 Parquet 文件的读写还可以自动的保存源数据的模式 val usersDF = spark.read.load("e...
阅读(78) 评论(0)

[置顶] 【mysql 删除大表中的数据】如何删除100G以上的大表中的数据

两个删除策略: 1、慢的方法是写脚本定时任务带where的delete语句 慢慢删除 范围定小一点 锁的时间很短 客户端无感; 2、快的方法就是找个业务空的时候 新建表 程序往新表中插入 然后把老表中需要的记录让新表中插入; 看到mysql文档有一种解决方案:https://dev.mysql.com/doc/refman/5.0/en/delete.html 简单的翻译下:...
阅读(114) 评论(0)

[置顶] 【mysql 数据表恢复】误删整张表数据,需要紧急回滚

应用案例 误删整张表数据,需要紧急回滚 闪回详细介绍可参见example目录下《闪回原理与实战》example/mysql-flashback-priciple-and-practice.md test库tbl表原有数据 mysql> select * from tbl; +----+--------+---------------------+ | id | name | addt...
阅读(111) 评论(0)

[置顶] 【tensorflow 计算图】tensorflow 核心--计算图和线性回归模型

您可能会认为TensorFlow Core程序由两个独立部分组成: 构建计算图。 运行计算图。 tensorflow 版本线性回归模型 import numpy as np import tensorflow as tf # Model parameters W = tf.Variable([.3], tf.float32) b = tf.Variable([-.3], tf.floa...
阅读(87) 评论(0)

[置顶] 【Tensorflow 安装URL】TensorFlow Python包的URL

一些安装机制需要TensorFlow Python包的URL。您指定的值取决于三个因素: 操作系统 Python版本 仅CPU与GPU支持 Python 2.7 仅CPU: https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-1.1.0-cp27-none-linux_x86_64.whl GPU支持: https...
阅读(101) 评论(0)

[置顶] 【hive 非等值连接】Hive 中 Map Join 的适用场景:非等值连接

一、需求分析 1: 有一个极小的表 2: 需要做不等值join操作(a.x 这种操作如果直接使用join的话语法不支持不等于操作,hive语法解析会直接抛出错误 如果把不等于写到where里会造成笛卡尔积,数据异常增大,速度会很慢。甚至会任务无法跑成功~ 二、mapjoin的计算原理 MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配。这种情...
阅读(76) 评论(0)

[置顶] 【hive 安装】Hive1.2.1_HA集群部署安装

1、准备工作 # 基础准备工作 # hive wget http://mirrors.cnnic.cn/apache/hive/hive-1.2.1/apache-hive-1.2.1-bin.tar.gz tar -zxvf apache-hive-1.2.1-bin.tar.gz mv apache-hive-1.2.1-bin /www/hive # 创建/www/hive的软连接/opt...
阅读(98) 评论(0)

[置顶] 【mysql 清空数据】清除mysql表中数据

主要命令 有两种,一种是delete 方式,一种是 truncate table 方式。delete from 表名; truncate table 表名;不带where参数的delete语句可以删除mysql表中所有内容, 使用truncate table也可以清空mysql表中所有内容。 效率上truncate比delete快, 但truncate删除后不记录mysql日志,不可以恢复数据...
阅读(286) 评论(0)

[置顶] 【深度学习 CNN】卷积神经网络模型--VGGNet(CNN )

VGGNet 网络结构诞生自牛津大学视觉几何组(Visual Geometry Group),也因此依照传统以作者VGG命名而来。算法思想:从网络设计思路来看,VGGNet是继承了AlexNet 的思路,以AlexNet 为基础,尝试建立了一个层次更多、深度更深的网络。其网络结构一样可以有8个层次所构成。也是5层卷积层,3层全连接层。最主要的区别在于,VGGNet的每个卷积网层并不是只做一次卷积操作...
阅读(175) 评论(0)

[置顶] 【mysql 累加、累减】MySQL累积求和,累加变累减

主要内容: 1、累加求和 2、累加变累减(挪位思想)创建表CREATE TABLE cum_demo (id INT,money INT,PRIMARY KEY (id));插入数据insert into cum_demo(id,money) values (1,10),(2,20),(3,30),(4,40);id money 1 10 2 20 3 30 4 40累加求和方...
阅读(232) 评论(0)

[置顶] 【Github git命令】Git 上传源代码步骤

git 命令 提交代码 打开git bash: git init git add . git commit -m "first commit" #添加远程仓库 git remote add origin https://github.com/laidefa/Scrapy_BaiduImage.git #删除远程仓库 git remote rm origin ###上传github之前...
阅读(105) 评论(0)

[置顶] 【深度学习 CNN】卷积神经网络模型--AlexNet(CNN )

AlexNet模型算法步骤:AlexNet的整个网络结构由8层神经元组成,其中前5层为卷积层,用于提取图像特征。 后3层为全连接层,用于图像分类。具体如下:1、输入图片是224*224 像素的3通道照片 2、第一层使用11*11的卷积核,滑动步长为4个像素,输出96个特征图,并进行最大池化; 3、第二层使用5*5卷积核,卷积产生256个特征图,并进行最大池化。 4、第三层使用3*3卷积核,输...
阅读(136) 评论(0)

[置顶] 【scala 迭代器】Scala Iterator(迭代器)

1、Scala Iterator(迭代器)不是一个集合,它是一种用于访问集合的方法。 2、迭代器 it 的两个基本操作是 next 和 hasNext。 3、调用 it.next() 会返回迭代器的下一个元素,并且更新迭代器的状态。 4、调用 it.hasNext() 用于检测集合中是否还有元素。 5、让迭代器 it 逐个返回所有元素最简单的方法是使用 while 循环。 6、你可以使用...
阅读(101) 评论(0)

[置顶] 【Scala 继承】Scala 中的继承

Scala继承一个基类跟Java很相似, 但我们需要注意以下几点: 1、重写一个非抽象方法必须使用override修饰符。 2、只有主构造函数才可以往基类的构造函数里写参数。 3、在子类中重写超类的抽象方法时,你不需要使用override关键字。 4、继承会继承父类的所有属性和方法,Scala 只允许继承一个父类。import java.io._class Point(val xc: Int...
阅读(101) 评论(0)

[置顶] 【Scala 类和对象】Scala 类和对象

1、类是对象的抽象,而对象是类的具体实例。类是抽象的,不占用内存,而对象是具体的,占用存储空间。类是用于创建对象的蓝图,它是一个定义包括在特定类型的对象中的方法和变量的软件模板。我们可以使用 new 关键字来创建类的对象。 2、Scala中的类不声明为public,一个Scala源文件中可以有多个类。 3、Scala 的类定义可以有参数,称为类参数,如上面的 xc, yc,类参数在整个类中都可以...
阅读(80) 评论(0)

[置顶] 【Scala 正则表达式】Regex 类来支持正则表达式

1、匹配功能 Scala 通过 scala.util.matching 包中的 Regex 类来支持正则表达式如果需要查看所有的匹配项可以使用 findAllIn 方法。 你可以使用 mkString( ) 方法来连接正则表达式匹配结果的字符串,并可以使用管道(|)来设置不同的模式:package DataStructureAndAlgorithm/** * Created by Admin...
阅读(66) 评论(0)

[置顶] 【Scala 异常处理】Scala 异常处理

1、Scala抛出异常 2、Scala捕获异常 Scala 的异常处理和其它语言比如 Java 类似。 Scala 的方法可以通过抛出异常的方法的方式来终止相关代码的运行,不必通过返回值。 捕捉异常的catch子句,语法与其他语言中不太一样。在Scala里,借用了模式匹配的思想来做异常的匹配,因此,在catch的代码里,是一系列case字句,finally 语句用于执行不管是正常处理还是有异常发...
阅读(75) 评论(0)

[置顶] 【Scala 提取器】Scala 提取器(Extractor)

提取器是从传递给它的对象中提取出构造该对象的参数。 Scala 标准库包含了一些预定义的提取器,我们会大致的了解一下它们。 Scala 提取器是一个带有unapply方法的对象。unapply方法算是apply方法的反向操作: unapply接受一个对象,然后从对象中提取值,提取的值通常是用来构造该对象的值。 以下实例演示了邮件地址的提取器对象:package DataStructureAndAlg...
阅读(151) 评论(0)

[置顶] 【python 图像处理】各种卷积滤波器的效果--cv2

在图像处理中,通常会用到一些经典的卷积滤波器,如低通滤波器、高斯滤波器、锐化滤波器、边缘检测、浮雕滤波器等。这些滤波器会产生不同的效果。下面用opencv实现这些出来看看效果: 原图 低通滤波器...
阅读(232) 评论(0)

[置顶] 【go API开发】goweb:基于 Go 语言开发 API 的工具

一个基于go语言开发API的工具,这个工具受到了SpringMVC的启发,结合了go语言本身的特性,整体比较简单,接下来,看看如何使用它。下载安装:go get github.com/alberliu/gowebpackage mainimport "github.com/alberliu/goweb"type User struct { Id int64 `json:"id"`...
阅读(124) 评论(0)

[置顶] 【R语言 数据建模】模型验证武器

分类模型是数据挖掘中应用非常广泛的算法之一,常用的分类算法有Logistic模型、决策树、随机森林、神经网络、Boosting等。针对同一个数据集,可以有这么多的算法进行分析,那如何评估什么样的模型比较合理呢?本文就讲讲常用的模型验证武器,主要包括混淆矩阵、ROC曲线、提升度、增益法和KS统计量。一、混淆矩阵混淆矩阵就是如下图所示的那样,也是最简单的一种模型验证方法:通过混淆矩阵可以算出模型预测精度...
阅读(228) 评论(0)

[置顶] 【R语言 字符串处理】stringr 包的强大之处

stringr包中主要内容: 1、字符串拆分利器–str_split 2、字符串替换利器–str_replace_all 3、字符串抽取利器–str_match_all 4、字符串截取利器–str_sub 字符串处理中最为常见的四种手段有“拆、替、抽、取”。强烈推荐stringr包,个人觉得远比R自带的grep、regexp、strsplit、sub等函数好用。利器1:拆:str_splitstr_...
阅读(204) 评论(0)

[置顶] 【R语言 数据合并】批量读取数据文件合并为一个excel表格

需求分析: 在一个文件夹下里面有很多excel文件,它们字段都一样,这时候需要把他们合并为一个excel表格。类型1:R语言合并同一个文件夹下的多个csv文件 rm(list = ls()) options(scipen = 200)#########自定义函数################ readCSV <- function(dir_dta){ file_list <- list.f...
阅读(375) 评论(0)

[置顶] 【R语言 数据分析】豆瓣电影R语言爬虫和数据分析

主要内容: 1、r语言爬虫 rvest包的使用。 2、r语言字符串处理stringr包的使用。 3、r语言聚合dplyr 包的使用。 4、r语言可视化ggplot 包的使用。 5、r语言画词云图worldcloud2 包的使用。 6、正则表达式 str_match 的使用 7、sapply的用法。 8、字符串切割函数str_split的 用法。代码片段1(字符串切割和字符串正则匹配)...
阅读(351) 评论(0)

[置顶] 【python 数据库写入】python把数据框数据写入mongodb、mysql

主要内容: 1、数据框数据写入mongdb方法 2、数据框数据写入mysql方法 为了以后不重复造轮子,这里总结下,如何把数据框数据写入mysql和mongodb的方法记录下来,省得翻来翻去。下面记录的都是精华。写入mongodb代码片段(使用pymongo库):##########################写入mongodb 数据库##############################...
阅读(307) 评论(0)

[置顶] 【java 操作mysql】java连接mysql数据库并查询数据

做java开发不可避免要处理数据库,所以这里写篇用jdbc来连接mysql的文章, 主要内容包括: 1、java连接mysql 2、java查询mysql数据。 3、java插入mysql数据。 4、java更新mysql数据。 5、java删除mysql数据。 6、java执行mysql存储过程。 ide: IntelliJ IDEA2017 这里必不可少的需要导入mysql-connector...
阅读(203) 评论(0)

[置顶] 【scala 数据库操作】scala操作mysql数据库

主要内容: 1、scala连接mysql(jdbc方式) 2、scala查询mysql数据 3、scala更新mysql数据 4、scala插入mysql数据。 5、scala 删除mysql数据。 6、scala 调用存储过程。 在我的本地mysql 数据库中,有一张persons表,内容如下: 下面我们希望通过scala执行 mysql 查询数据和插入数据 和更新数据,删除数据、调用存储过程等...
阅读(185) 评论(0)

[置顶] 【scala io】scala io操作 txt文件读取和写入

package DataStructureAndAlgorithm //导入scala io包 import io.Source //导入java io包 import java.io.PrintWriter import java.io.File /** * Created by Administrator on 2017/12/23. */ object Test5ReadFromTxt...
阅读(129) 评论(0)

[置顶] 【scala 小试牛刀1】scala vs python 解一元二次方程

一元二次方程ax^2+bx+c=0中, 一元二次方程求根公式:两根x1,x2= [-b±√(b^2-4ac)]/2a韦达定理:两根x1,x2有如下x1+x2=-b/a x1*x2=c/apython2.7版本:# encoding: utf-8 from __future__ import division import sys reload(sys) sys.setdefaultencoding...
阅读(142) 评论(0)

[置顶] 【scala 匹配模式】match case|case class |::|:::|=>用法

主要内容: 1、Scala的匹配模式(标准用法(match)/使用守卫/匹配类型) 2、Scala的case class,多用在匹配模式中 3、Scala中 :: 和 ::: 冒号的使用情况 4、Scala中 => 映射作用 一、Scala的匹配模式(标准用法(match)/使用守卫/匹配类型)package DataStructureAndAlgorithm/** * Created by A...
阅读(79) 评论(0)

[置顶] 【scala 特质】Scala的Trait特质使用

Trait 的使用场景 当做接口 带有具体实现的接口 带有特质的对象 特质从左到右被构造 package DataStructureAndAlgorithm/** * Created by Administrator on 2017/12/23. */ // 特质 1 // 带有具体实现的接口 trait Logger1{ def log(msg: String): Unit ={...
阅读(89) 评论(0)

[置顶] 【Scala 抽象类】Scala的抽象类:abstract class

Scala的抽象类:abstract class 类的一个或者多个方法没有完整的定义 声明抽象方法不需要加abstract关键字,只需要不写方法体 子类重写父类的抽象方法时不需要加override 父类可以声明抽象字段(没有初始值的字段) 子类重写父类的抽象字段时不需要加override package DataStructureAndAlgorithm/** * Created by Admi...
阅读(69) 评论(0)

[置顶] 【scala 的类】Scala的类:变量/方法/构造方法/继承

package DataStructureAndAlgorithm/** * Created by Administrator on 2017/12/23. */ // 1. 声明类 和 getter/setter 方法 class Person{ // name为变量,不设置初始值 _ 代表前面的name变量 // var 会生成 getter和setter 方法 var n...
阅读(77) 评论(0)

[置顶] 【scala 表达式】Scala的循环表达式和条件表达式

主要内容: 1、scala 条件表达式 2、scala循环表达式1、Scala的条件表达式package DataStructureAndAlgorithm/** * Created by Administrator on 2017/12/23. */ object Test3ScalaConditional { def main(args: Array[String]) { //...
阅读(106) 评论(0)

[置顶] 【scala 函数定义和调用】Scala的函数调用:普通函数、匿名函数、柯里化函数

package DataStructureAndAlgorithm/** * Created by Administrator on 2017/12/23. */object Test1ScalaFunction { // function_1: 无返回值 def funApacheCN_1(name: String): Unit = { println("hello: " +...
阅读(84) 评论(0)

[置顶] 【scala 格式化操作】Scala的字符串 格式化 输出

主要内容: 1、字符串通过+号连接。 2、字符串通过 % 传值。 3、字符串通过$引用。package DataStructureAndAlgorithm/** * Created by Administrator on 2017/12/23. */case class BookPrint(name: String, author: String) object Test1ScalaP...
阅读(115) 评论(0)

[置顶] 【matlab 多元回归】matlab数值预测--多元回归算法

对七个自变量,2个因变量分别做多元线性线性回归。数据形式如下: 下面是matlab 代码:clc,clear all %% % 读取excel数据,data存放数值数据,text存放文本数据[data1,text1] = xlsread('E://ID//data//data.xlsx');%% %建立第一个多元回归模型 y1=data1(:,1); y2=data1(:,2); x=data...
阅读(209) 评论(0)

[置顶] 【matlab 数据处理】excel读取和写出,匹配

一、需求分析 有两个excel,第一个excel有股票,日期,年限 第二个excel有 日期,各个年限利率(x2,X3,X4) 根据日期和年限 匹配国债利率 把匹配结果写回第一个excel 当日对应期限国债利率数据形式:matalb源代码:clc,clear all %% % 读取excel数据,data存放数值数据,text存放文本数据 [data1,text1] = xlsread...
阅读(209) 评论(0)

[置顶] 【scala 高级函数】快速了解scala高级函数用法

主要内容: 1、scala 的mkString 使用 2、Scala的List/Set/Tuple使用 3、Scala的Map和Option的使用 4、4、Scala的集合内常用的操作1、Scala的mkString使用如果你想要把集合元素转化为字符串,那麽请使用mkString 函数。同时可能还会添加分隔符,前缀,后缀。 package DataStructureAndAlgorithm/...
阅读(119) 评论(0)

[置顶] 【python 马氏距离】python实现马氏距离算法

我给写成函数调用了 python实现马氏距离源代码:# encoding: utf-8 from __future__ import division import sys reload(sys) sys.setdefaultencoding('utf-8') import numpy as np def mashi_distance(x,y): print x print y...
阅读(261) 评论(0)

[置顶] 【scala 数据结构和算法】Scala实现:归并排序

一、归并排序算法思想归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。 归并过程为:比较a[i]和b[j]的大小,若a[i]≤b[j],则将第一个有序表中的元素a[i]...
阅读(70) 评论(0)

[置顶] 【matlab 异常点检测】基于欧氏距离和马氏距离的异常点检测

基于欧式距离的异常点检测:load data1.txt %导入数据,行为样本,列为特征X=data1; %赋值给Xu=mean(X); %求均值[m,n]=size(X);for i=1:mdist(i)=sqrt(sum(X(i,:)-u).^2);end[a,b]=sort(dist);%对欧氏距离进行排序T=ceil(m*0.02)%设置阀值Threshold=a(m-T);%定为阀值len=...
阅读(133) 评论(0)

[置顶] 【scala 数据结构和算法】Scala实现:快速排序

算法思想: 快速排序由C. A. R. Hoare在1962年提出。它的基本思想是:通过一趟排序将要排序的数据分割成独立的两部分,其中一部分的所有数据都比另外一部分的所有数据都要小,然后再按此方法对这两部分数据分别进行快速排序,整个排序过程可以递归进行,以此达到整个数据变成有序序列。scala递归使用快速排序:/** * Created by Administrator on 2017/12/...
阅读(87) 评论(0)

[置顶] 【javascript 画进度条】js实现进度条的方法

进度条 .container{ width:450px; border:1px solid #6C9C2C;...
阅读(121) 评论(0)

[置顶] 【javascript 数据结构与算法】javascript实现冒泡排序

javascript 实现冒泡排序:function bubbleSort(arr) { var i = arr.length, j; var tempExchangVal; while (i > 0) { for (j = 0; j arr[j + 1]) {...
阅读(81) 评论(0)

[置顶] 【scala 数据结构和算法】Scala实现:冒泡排序

算法原理:1、比较相邻的元素。如果第一个比第二个大,就交换他们两个。 2、对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对。在这一点,最后的元素应该会是最大的数。 3、针对所有的元素重复以上的步骤,除了最后一个。 4、持续每次对越来越少的元素重复上面的步骤,直到没有任何一对数字需要比较scala实现:/** * Created by Administrator on 2017/1...
阅读(112) 评论(0)

[置顶] 【scala 代码片段3】轻松入门scala--集合的操作交并补

主要内容: 1、集合的过滤filter 2、集合的集合flatten 3、集合的交并补diff、intersect、union、distinct 4、flatMap、Map用法 5、集合条件检查 6、集合分组 partition 7、foldLeft求和代码片段:/** * Created by Administrator on 2017/1/13. */ object stu...
阅读(83) 评论(0)

[置顶] 【scala 代码片段2】轻松入门scala--列表的操作以及集合元素映射

主要内容: 1、list.head 返回list集合中的第一个元素 2、 list.tail 返回除了list.head以外的所有元素(也是个list集合) 3、list添加元素(:: 操作符只适用于list集合) 4、 集合元素映射yield 5、 filter和map函数代码片段:/** * Created by Administrator on 2016/5/18. */ o...
阅读(62) 评论(0)

[置顶] 【scala 代码片段1】轻松入门scala--列表的操作以及文件读取

主要内容: 1、列表的操作,每个元素如何计算,求和,求最大值,最小值,过滤,连接 等。 2、scala如何读取txt文件。代码片段:/** * Created by Administrator on 2016/5/5. */ object test1 { def main(args: Array[String]) { val data1=1 to 10 // 让列表中的每个...
阅读(94) 评论(0)

[置顶] 【数据挖掘 特征选择】特征选择常用方法

下面列举一些最常用的方法 1、根据阈值过滤掉方差小的变量。 2、通过计算变量与标签的相关系数,留下相关性高的特征。 3、根据决策树或者随机森林,选择重要程度高的特征。 4、利用PCA等算法,对数据进行变换,选择区分度最高的特征组合。特征选择的方法,大部分在sklearn库中有对应的实现。...
阅读(127) 评论(0)

[置顶] 【数据挖掘 xgboost】特征的重要程度分析

代码片段import pandas as pd import xgboost as xgb import operator # # 从sklearn.cross_validation里选择导入train_test_split用于数据分割。 # from sklearn.model_selection import train_test_split # # 从使用train_test_split,利用...
阅读(137) 评论(0)

[置顶] 【数据挖掘 sklearn】knn解决三分类问题

#coding:utf-8 from __future__ import division import sys reload(sys) sys.setdefaultencoding('utf-8') import time start_time = time.time() import pandas as pd # 从sklearn.datasets 导入 iris数据加载器。 from skle...
阅读(1204) 评论(0)

[置顶] 【mysql 递归查询】Mysql中的递归层次查询(父子查询)

最近遇到了一个问题,在mysql中如何完成节点下的所有节点或节点上的所有父节点的查询? SELECT id,name,parent_id from b_company 数据长这样子,id是父节点,parent_id 是子节点 id name parent_id 1 草根总公司 24 浙江金爱农网络科技有限公司 1 25 衢州分公司 24 26 江山...
阅读(874) 评论(0)

[置顶] 【深度学习 tensorflow】Mac OS安装TensorFlow

在Mac OS 系统下,tensorFlow 安装过程非常简单方便,Mac OS系统是基于unix的操作系统,系统中已经基本包含了所有Tensorflow需要的依赖组件。1、重装python2.7为了避免一些不必要的麻烦,推荐使用brew 重新安装python2.7brew install python通过Homebrew 安装的python的位置默认为/usr/local/Cellar/pytho...
阅读(207) 评论(0)

[置顶] 【mysql 性能优化篇】性能配置

tmp_table_size:该参数用于决定内部内存临时表的最大值,每个线程都要分配(实际起限制作用的是tmp_table_size和max_heap_table_size的最小值),如果内存临时表超出了限制,MySQL就会自动把它转化为基于磁盘的MyISAM表,优化查询语句的时候,要避免使用临时表,如果实在避免不了的话,要保证这些临时表是存在内存中的。现象:如果复杂的SQL语句中包含了group...
阅读(153) 评论(0)

[置顶] 【mysql 读写分离】10分钟了解读写分离的作用

1、what 读写分离 读写分离,基本的原理是让主数据库处理事务性增、改、删操作(INSERT、UPDATE、DELETE),而从数据库处理SELECT查询操作。数据库复制被用来把事务性操作导致的变更同步到集群中的从数据库。2、why 那么为什么要读写分离呢? 因为数据库的“写”(写10000条数据到oracle可能要3分钟)操作是比较耗时的。 但是数据库的“读”(从oracle读10...
阅读(421) 评论(0)

[置顶] 【mysql 主从复制】掌握MySQL主从复制

1、主从复制原理Mysql内建的复制功能是构建大型,高性能应用程序的基础。将Mysql的数据分布到多个系统上去,这种分布的机制,是通过将Mysql的某一台主机的数据复制到其它主机(slaves)上,并重新执行一遍来实现的。复制过程中一个服务器充当主服务器,而一个或多个其它服务器充当从服务器。主服务器将更新写入二进制日志文件,并维护文件的一个索引以跟踪日志循环。这些日志可以记录发送到从服务器的更新。当...
阅读(85) 评论(0)

[置顶] 【python pandas】 Dataframe的数据print输出 显示为...省略号

pandas.set_option() 可以设置pandas相关的参数,从而改变默认参数。 打印pandas数据事,默认是输出100行,多的话会输出….省略号。那么可以添加: pandas.set_option('display.max_rows',None)这样就可以显示全部数据同样,某一列比如url太长 显示省略号 也可以设置。pd.set_option('display.max_colwidt...
阅读(289) 评论(0)

[置顶] 【R语言 连接数据库 】RMySQL数据库编程指南

主要内容1、RMySQL介绍 2、RMySQL安装方法 3、R连接本地mysql 4、R连接远程mysql 5、R查询mysql数据 6、R插入数据到mysql 7、R调用mysql中的存储过程1. RMySQL介绍MySQL是一款最常用到开源数据库软件,安装简单,运行稳定,非常适用于中小型的数据存储。R作为数据分析的工具,当然要支持数据库驱动接口。让R和MySQL配合在一起,所能爆发出的能量是巨大...
阅读(131) 评论(0)

[置顶] 【R语言 数据处理和可视化】一个手游公司销售额数据分析

主要知识点 1、读取csv(read.csv用法) 2、数据集合并(merge用法) 3、分组求和(aggregate用法) 4、日期格式处理(format(as.Date用法)) 5、数据可视化–条形图(ggplot用法) rm(list=ls()) gc()options(scipen = 200)library(ggplot2) #读取数据##用户登陆时间 DAU <- read.c...
阅读(453) 评论(0)

[置顶] 【mysql 视图】Mysql视图的创建

什么是视图?视图是由查询结果形成的一张虚拟表。也就是我们可以理解为就是一种类似于表的数据对象。什么时候要用到视图?如果某个查询结果出现的非常频繁,也就是,要经常拿这个查询结果来做子查询。视图与表的关系?视图是表的查询结果,自然表的数据变了,会影响视图的结果。创建视图 CREATE VIEW v_person as SELECT * from persons;SELECT * from v_pers...
阅读(94) 评论(0)

[置顶] 【mysql 存储引擎】MySQL常用存储引擎及特点

SHOW ENGINES;SHOW VARIABLES LIKE 'have%';SHOW VARIABLES LIKE 'storage_engine'1.InnoDB存储引擎特点:1)给MySQL数据库提供事物,包括回滚,包括修复能力,多版本并发控制事物安全。2)支持外界元素。3)创建表结构是存储在“.fim”文件中,数据和索引,数据分别存储在innodb表空间中。4)缺点是读写读取效率比较低,...
阅读(109) 评论(0)

[置顶] 【机器学习 sklearn】模型正则化L1-Lasso,L2-Ridge

#coding:utf-8 from __future__ import division import sys reload(sys) sys.setdefaultencoding('utf-8') import time start_time = time.time() import pandas as pd # 输入训练样本的特征以及目标值,分别存储在变量X_train与y_train之中。...
阅读(214) 评论(0)

[置顶] 【机器学习 sklearn】特征筛选feature_selection

特征筛选更加侧重于寻找那些对模型的性能提升较大的少量特征。继续沿用Titannic数据集,这次试图通过特征刷选来寻找最佳的特征组合,并且达到提高预测准确性的目标。#coding:utf-8 from __future__ import division import sys reload(sys) sys.setdefaultencoding('utf-8') import time start_t...
阅读(156) 评论(0)

[置顶] 【mysql 体系结构】了解MySQL体系结构

1、mysql 数据库体系结构图:MySQL 由以下几部分组成:1、Connectors:不同语言中与 SQL 的交互show VARIABLES like '%connection%'Variable_name Value character_set_connection utf8 collation_connection utf8_general_ci extra_max_co...
阅读(496) 评论(0)

[置顶] 【mysql 触发器】触发器使用

1、了解什么是触发器?mysql 的触发器和存储过程一样,都是嵌入到mysql的一段程序,触发器 是由事件触发某个动作,这些事件包括,插入 ,更新、删除等语句。如果定义了触发程序,触发器就会触发执行相应的操作。触发器( trigger)是个特殊的存储过程,不同的是,执行存储过程要使用CALL语句来调用,而触发器的执行不需要使用CALL语句来调用,也不需要手工启动,只要当一个预定义的事件发生的时候,就...
阅读(241) 评论(0)

[置顶] 【mysql 数据备份】数据备份三种方法

1、使用mysqldump 命令备份1.1 使用mysqldump 备份单个数据库中的所有表mysqldump -u root -p booksdb>c:\backup\booksdb_20171208.sql 1.2 使用mysqldump 备份单个数据库中的某个表mysqldump -u root -p booksdb books>c:\backup\books_20171208.sql 1....
阅读(1070) 评论(0)

[置顶] 【mysql 进阶篇】学习 HAVING 子句的真正价值

HAVING 子句可能是 SQL 诸多功能中最容易被轻视的一个。不知道它的真正价值是一个很大的损失。可以说,HAVING 子句是集中体现了 SQL 之面向集合理念的功能。多年以来,笔者一直认为掌握 SQL 的思维方式的最有效的捷径就是学习 HAVING 子句的用法。这样说的原因是,与 WHERE 子句不同,HAVING 子句正是设置针对集合的条件的地方,因此为了灵活运用它,我们必须学会从集合的角度来...
阅读(112) 评论(0)

[置顶] 【python 处理亿级数据】使用 Pandas 处理亿级数据

此前有一篇文章《别老扯什么Hadoop了,你的数据根本不够大》指出:只有在超过5TB数据量的规模下,Hadoop才是一个合理的技术选择。事实确实如此,在数据分析领域,那么如何处理亿级数据呢,pandas提供了IO工具可以将大文件分块读取,测试了一下性能,非常不错。可谓是瑞士中的军刀python 读取亿级数据代码如下:# encoding: utf-8 import sys reload(sys) s...
阅读(165) 评论(0)

[置顶] 【mysql 数据库监控篇】数据库表空间大小监控

所用数据库占用空间大小如果想知道MySQL数据库中每个表占用的空间、表记录的行数的话,可以打开MySQL的 information_schema 数据库。在该库中有一个 TABLES 表,这个表主要字段分别是:TABLE_SCHEMA : 数据库名TABLE_NAME:表名ENGINE:所使用的存储引擎TABLES_ROWS:记录数DATA_LENGTH:数据大小INDEX_LENGTH:索引大小所...
阅读(1203) 评论(0)

[置顶] 【mysql 性能优化篇】优化MySQL服务器

优化mysql 服务器主要从两个方面来优化,一方面是对硬件进行优化,一方面是对mysql服务的参数进行优化。1、优化服务器硬件服务器的硬件性能直接决定着 MYSQL数据库的性能。硬件的性能瓶颈,直接决定 MYSQL数 据库的运行速度和效率。针对性能瓶颈,提高硬件配置,可以提高 MYSQL数据库的查询、更新的速度。介绍以下优化服务器硬件的方法(1)配置较大的内存。足够大的内存,是提高 MYSQL数据...
阅读(147) 评论(0)

[置顶] 【mysql 性能优化篇】优化数据库结构

方法1: 将字段很多的表分解为多个表。 通过这种分解,可以提高表的查询效率。对于字段很多,且有些字段使用不频繁的表,可以通过这种分解的方式优化数据库的性能。方法2: 增加中间表对于经常需要联合查询的表,可以建立中间表 提高查询效率。通过建立中间表,把需要经常联合查询的数据插入到中间表,然后将原来的联合查询改为对中间表的查询,以此来提高查询效率。方法3: 增加冗余字段 合理加入冗余字段可以增...
阅读(96) 评论(0)

[置顶] 【mysql 性能优化篇】优化子查询

一、mysql子查询原理: MYSQL从4.1版体开始支持子查询,使用子查询可以进行 SELECT语句的嵌套查询,即一个 SELECT查询的结果作为另一个 SELECT语句的条件。子查询可以一次性完成很多逻辑上需要多 个步骤才能完成的SQL操作。子查询虽然可以使查询语句很灵活,但执行效率不高。执行子查询时, MYSQL需要为内层查询语句的查询结果建立一个临时表。然后外层查询语句从临时表中查询记...
阅读(55) 评论(0)

[置顶] 【mysql 性能优化篇】使用show status查看MySQL服务器状态信息

有些时候我们需要了解MySQL的服务器状态信息,譬如当前MySQL启动后的运行时间,当前MySQL的客户端会话连接数,当前MySQL服务器执行的慢查询数,当前MySQL执行了多少SELECT语句、执行了多少UPDATE/DELETE/INSERT语句等统计信息,从而便于我们根据当前MySQL服务器的运行状态进行对应的调整或优化工作。在MySQL中,我们可以使用SHOW STATUS指令语句来查看My...
阅读(154) 评论(0)

[置顶] 【Tensorflow】报错解决方案

问题1:AttributeError: ‘module’ object has no attribute ‘histogram_summary’解决办法: 更新版本According to the answer I got in github issues, I am using a very old version of TensorFlow. This solved the problem:$...
阅读(113) 评论(0)

[置顶] 【机器学习 sklearn】XGBclassifier 超参数寻优

代码片段# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import pandas as pdtrain = pd.read_csv('train.csv') test = pd.read_csv('test.csv') # print train.info() # print test.info()s...
阅读(357) 评论(0)

[置顶] 【机器学习 sklearn】XGBoost and RandomForest

数据集下载网站: http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt对比随机决策森林以及XGBboost模型对泰坦尼克号上的乘客是否生还进行预测。#coding:utf-8 from __future__ import division import sys reload(sys) sys.setdefaulten...
阅读(127) 评论(0)

[置顶] 【机器学习 sklearn 】朴素贝叶斯naive_bayes

代码片段:# encoding: utf-8import sys reload(sys) sys.setdefaultencoding('utf-8')import pandas as pd import chardet df = pd.read_csv('news.txt', sep='\t', dtype=str, na_filter=False) X=df['data'] y=df['tar...
阅读(1260) 评论(0)

[置顶] 【mysql 索引】mysql 添加索引

主要内容: 1、什么是索引 2、添加索引sql 3、索引所用的算法 4、补充下概念 5、索引的缺点 6、经典案例一、什么是索引?   索引用来快速地寻找那些具有特定值的记录,所有MySQL索引都以B-树的形式保存。如果没有索引,执行查询时MySQL必须从第一个记录开始扫描整个表的所有记录,直至找到符合要求的记录。表里面的记录数量越多,这个操作的代价就越高。如果作为搜索条件的列上已经创建...
阅读(161) 评论(0)

[置顶] 【mysql 存储过程】数据库从菜鸟走向大神系列3

主要内容: 1、建表 2、写存储过程 3、写事件(自动化)mysql 建表语句:CREATE TABLE `nld_op_data_statistics_day` ( `id` int(11) NOT NULL AUTO_INCREMENT, `channel` varchar(16) NOT NULL COMMENT '渠道', `count_date` varchar(16)...
阅读(115) 评论(0)

[置顶] 【linux bash】常用命令集合

常用 Bash 命令以下是在 Linux 中最常用到的指令,在使用新系统进行开发时,记住这些指令对于快速上手非常重要。cd {directory}:转换当前目录 ls -lha:列出目录文件(详细信息) vim or nano:命令行编辑器 touch {file}:创建一个新的空文件 cp -R {original_name} {new_name}:复制一个文件或目录(包含内部所有文件) mv {...
阅读(157) 评论(0)

[置顶] 【python 自然语言处理】画画词云图

主要内容 1、需要一张背景图(hang.jpg) 2、需要文本数据(comments.txt) 3、需要中文字体文件(simsun.ttc)背景图:hang.jpg 效果图:# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8')import jieba.analyse # 导入结巴分...
阅读(197) 评论(0)

[置顶] 【mysql 字符串截取】SUBSTRING_INDEX用法

截取 一个字符串的省、市、区、街道 SELECT SUBSTRING_INDEX(SUBSTRING_INDEX('浙江省-杭州市-余杭区-测试地址' ,'-',-1),'-',1)SELECT SUBSTRING_INDEX(SUBSTRING_INDEX('浙江省-杭州市-余杭区-测试地址' ,'-',-2),'-',1)SELECT SUBSTRING_INDEX(SUBSTRING_INDE...
阅读(155) 评论(0)

[置顶] 【python 自然语言处理】对胡歌【猎场】电视剧评论进行情感值分析

主要内容1、什么是SnowNLP? 2、如何进行情绪判断? 3、猎场豆瓣热门短评抓取。 4、猎场热门短评情感分析。什么是SnowNLP? snowNLP,可以分词,标注,还可以进行情绪分析。 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextB...
阅读(1063) 评论(0)

[置顶] 【python 天气预报】python制作属于自己的天气预报

主要内容: 1、首先利用request库去请求数据,天气预报使用的是和风天气的API(www.heweather.com/douments/api/s6/weather-forecast),注册完成得到一个key。2、利用python的jinja2模块写一个html模板,用于展示数据3、python的email构建邮件,smtplib发送邮件4、最后使用crontab定时执行python脚本内容效...
阅读(403) 评论(0)

[置顶] 【mysql 执行计划】读懂mysql 中的执行计划

一、什么是mysql执行计划?执行计划,简单的来说,是SQL在数据库中执行时的表现情况,通常用于SQL性能分析,优化等场景。在MySQL使用 explain 关键字来查看SQL的执行计划。如下所示://1. 查询t_base_user select * from t_base_user where name="andyqian";//2. 查看上述语句的执行计划 explain select * f...
阅读(134) 评论(0)

[置顶] 【ubantu crontab】crontab 无法保存退出,坑死了

解决crontab不能编辑和保存的问题EDITOR=vi export EDITOR然后crontab -e就不会有这个问题了...
阅读(136) 评论(0)

[置顶] 【mysql 计算星座】根据身份证计算用户所属星座

SELECT casewhen SUBSTRING(person_card,11,4) between '0120' and '0218' then '水瓶座' when SUBSTRING(person_card,11,4) between '0219' and '0320' then '双鱼座'when SUBSTRING(person_card,11,4) between '0321' and...
阅读(184) 评论(0)

[置顶] 【python 存储过程】python利用mysql存储过程更新数据

一、需求分析 由于管理费率配置错误,生成订单的还本付息表和订单表的各种金额,管理费之间的计算都有错误,需要进行数据订正。为此,为了造个轮子,以后省很多功夫,全部用程序去修正,不接入人工。二、带参数mysql 存储过程创建1、更新订单付息表(t_order_rapay)drop procedure if exists update_t_order_rapay; delimiter $$ create...
阅读(183) 评论(0)

[置顶] 【机器学习 sklearn】手写数字识别 SVM

"D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/SVM.py (1797L, 64L) [[ 0. 0. 5. ..., 0. 0. 0.] [ 0. 0. 0. ..., 10. 0. 0.] [ 0. 0. 0. ..., 16. 9. 0.]...
阅读(220) 评论(0)

[置顶] 【机器学习 sklearn】逻辑斯蒂回归模型--Logistics regression

运行结果:"D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/Logistics_regression.py Logistics regression [[99 1] [ 1 70]] sgdc_y_predict [[98 2] [ 1 70]] Accuracy of LR Classifier: 0.988...
阅读(239) 评论(0)

[置顶] 【数据建模 神经网络】人工神经网络数据处理

人工神经网络数据预处理: 不能有缺失值 移除常量型特征(即这个特征的最大值和最小值相等) 不能接受非数值形式的输入,字符型变量需要编码:One hot编码 Dummy编码 浓度编码变量归一化/标准化 人工神经网络中的参数设置:输入层节点个数 隐藏层层数 隐藏层节点个数 隐藏层联接状态 激活函数 损失函数 学习速率 迭代次数模型的效果AUC score,超过0.7为佳...
阅读(197) 评论(0)

[置顶] 【数据建模 分类器性能指标】性能测评

表示分类正确:True Positive:本来是正样例,分类成正样例。 True Negative:本来是负样例,分类成负样例。 表示分类错误:False Positive :本来是负样例,分类成正样例,通常叫误报。 False Negative:本来是正样例,分类成负样例,通常叫漏报。准确度 : 真正类率(True Postive Rate)TPR: TP/(TP+FN),代表分类器预...
阅读(140) 评论(0)

[置顶] 【数据建模 类别型变量编码】特殊变量的处理

对类别型变量编码1. one-hot编码 2. 浓度编码这里需要详细讲下浓度编码: 某类别型特征下,每一类数据对应的流失率或者是违约率(也可以是非流失率或者非违约率)作为这类数据的编码。 例如性别这个特征:男性人数为x1,男性中流失人数x11,女性人数x2,女性中流失人数x22。 那么我们以x11/x1作为男性编码;x22/x2作为女性编码。WOE编码对日期/时间型变量时间是否为一个...
阅读(161) 评论(0)

[置顶] 【数据建模 缺失值处理】缺失值的处理

缺失类型1、完全随机缺失:缺失值跟其他变量无关,例如婚姻状况的缺失2、随机缺失:缺失值依赖于其他变量,例如“配偶姓名”的缺失取决于“婚姻状况”完全非随机缺失:缺失值依赖于自己,例如高收入人群不愿易提供家庭收入处理方法删除有缺失值的属性或者样本(土豪行为) 插补填充(常用于完全随机缺失且缺失度不高的情形中) 将缺失当成一种属性值(常用于完全非随机缺失) 连续变量缺失值的处理1)对于完全随机缺失,...
阅读(189) 评论(0)

[置顶] 【数据建模 极端值的检测】离群值检测

极端值:又称离群值,往往会扭曲预测结果并影响模型精度。回归模型(线性回归,广义线性回归)中离群值的影响尤其大,使用该模型时我们需要对其进行检测和处理。处理离群值或者极端值并不是数据建模的必要流程,然而,了解它们对预测模型的影响也是大有裨益的。 数据分析师们需要自己判断处理离群值的必要性,并结合实际问题选取处理方法。 检测离群值的重要性:由于离群值的存在,模型的估计和预测可能会有很大的偏差或者变化...
阅读(274) 评论(0)

[置顶] 【数据建模 卡方检验】了解卡方检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。注意:卡方检验针对分类变量。 (1)提出原假设: H0:总体X的分布函数为F(x) 如果总体分布为离散型,则假设具体为H0:总体X的分布律为P{X=xi}...
阅读(285) 评论(0)

[置顶] 【数据建模 方差分析】单因素方差分析

单因素方差分析: (一)单因素方差分析概念理解步骤 ①是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。 ②单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量 分别为施肥量、地区、学历。 ③单因素方差分析的第二...
阅读(379) 评论(0)

[置顶] 【数据建模 IV】特征信息度

IV(Information Value), 衡量特征包含预测变量浓度的一种指标特征信息度解构: 其中Gi,Bi表示箱i中好坏样本占全体好坏样本的比例。  WOE表示两类样本分布的差异性。  (Gi-Bi):衡量差异的重要性。 特征信息度的作用  选择变量:非负指标 高IV表示该特征和目标变量的关联度高 目标变量只能是二分类 过高的IV,可能有潜在的风险 特征分箱越细,IV越高...
阅读(227) 评论(0)

[置顶] 【数据建模 WOE编码】WOE(weight of evidence, 证据权重)

WOE(weight of evidence, 证据权重)一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值优势   将特征的值规范到相近的尺度上。   (经验上讲,WOE的绝对值波动范围在0.1~3之间)。   具有业务含义。    缺点   需要每箱中同时包含好、坏两个类别。...
阅读(321) 评论(0)

[置顶] 【数据建模 特征分箱】特征分箱的方法

在建模中,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。有监督的卡方分箱法(ChiMerge)自底向上的(即基于合并的)数据离散化方法。 它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。 基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开...
阅读(1754) 评论(0)

[置顶] 【R 语言 数据抽样】将样本总体分为样本集和测试集

方法1:rm(list=ls()) gc() german_credit <- read.csv("C:/pic/credit/german_credit.csv",sep = ",")names(german_credit)# 需要将样本总体分为样本集和测试集 # 简单随机抽样 smp1<-sample(nrow(german_credit),300,replace=F) train_data=g...
阅读(219) 评论(0)

[置顶] 【R语言 评分模型】R语言建立信用评分模型

1、数据源: 我们将会使用在信用评级建模中非常常用的德国信贷数据(German credit dataset)作为建模的数据集。德国信贷数据共有1000条数据,每条数据20个特征。2、数据源下载: https://github.com/frankhlchi/R-scorecard3、建模过程4、完整版(源代码):rm(list=ls()) gc() library(caret) library(...
阅读(469) 评论(0)

[置顶] 【python 生成自己的二维码】推广二维码带log图片

如何安装?用pip安装pip install qrcode pip install pillow# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') # import qrcode # img=qrcode.make("农粒贷震撼上线~") # img.save("c:/test.png")""" 生成带l...
阅读(358) 评论(0)

[置顶] 【验签算法 HMAC-MD5】实现HMacMD5加密

什么是 HMAC-MD5?1、比如你和对方共享了一个密钥K,现在你要发消息给对方,既要保证消息没有被篡改,又要能证明信息确实是你本人发的,那么就把原信息和使用K计算的HMAC的值一起发过去。对方接到之后,使用自己手中的K把消息计算一下HMAC,如果和你发送的HMAC一致,那么可以认为这个消息既没有被篡改也没有冒充。2、MD5就是通过散列对要输出的数据进行摘要,接收到数据时,再同样进行MD5散列,与给...
阅读(273) 评论(0)

[置顶] 【机器学习 数据预处理】fit_transform()和transform()的区别

# 从sklearn.preprocessing导入StandardScaler from sklearn.preprocessing import StandardScaler # 标准化数据,保证每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值而主导 ss = StandardScaler() # fit_transform()先拟合数据,再标准化...
阅读(225) 评论(0)

[置顶] 【神经网络 隐含层节点数的设置】如何设置神经网络隐藏层 的神经元个数

当训练集确定之后,输入层结点数和输出层结点数随之而确定,首先遇到的一个十分重要而又困难的问题是如何优化隐层结点数和隐层数。实验表明,如果隐层结点数过少,网络不能具有必要的学习能力和信息处理能力。反之,若过多,不仅会大大增加网络结构的复杂性(这一点对硬件实现的网络尤其重要),网络在学习过程中更易陷入局部极小点,而且会使网络的学习速度变得很慢。隐层结点数的选择问题一直受到神经网络研究工作者的高度重视。方...
阅读(1184) 评论(0)

[置顶] 【深度学习 框架】PaddlePaddle的安装

CPU版本安装 pip install paddlepaddleGPU版本安装 pip install paddlepaddle-gpu训练步骤 导入数据—->定义网络结构—->训练模型—->保存模型—->测试结果#coding:utf-8 import os from PIL import Image import numpy as np import paddle.v2 as paddle...
阅读(799) 评论(0)

[置顶] 【python 神经网络】BP神经网络python实现-iris数据集分类

输入数据集iris: (只有两类Iris-virginica or Iris-versicolor. 100条)sepal_length sepal_width petal_length petal_width species 7 3.2 4.7 1.4 Iris-versicolor 6.4 3.2 4.5 1.5 Iris-versicolor 6.9 3.1 4.9 1.5...
阅读(671) 评论(0)

[置顶] 【python sklearn】kmeans算法运用

# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import timetime1=time.time() import pandas as pd from sklearn.externals import joblib from sklearn.preprocessing import scale...
阅读(210) 评论(0)

[置顶] 【python sklearn】决策树运用

数据形式(tree.csv):age look income orderly target older ugly low yes no young ugly high no no young handsome low no no young handsome high yes yes young handsome m...
阅读(293) 评论(0)

[置顶] 【mysql 字符串函数】MySQL中字符串匹配函数LOCATE和POSITION使用方法

1. 用法一LOCATE(substr,str) POSITION(substr IN str)函数返回子串substr在字符串str中第一次出现的位置。如果子串substr在str中不存在,返回值为0。mysql> SELECT LOCATE('bar', 'foobarbar'); -> 4 mysql> SELECT LOCATE('xbar', 'foobar'); -> 0 这个函数是大小...
阅读(220) 评论(0)

[置顶] 【python 爬虫】链家天津租房在售房源数据爬虫

爬取字段:户型、面积、朝向、小区、价格、url#-*-coding:utf-8-*- import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests from lxml import etree import pandas as pd time1=time.time() import re impo...
阅读(476) 评论(0)

[置顶] 【模型 区分度】神秘的KS值和GINI系数

有效性指标中的区分能力指标:KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估, 指标衡量的是好坏样本累计分部之间的差值。 好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。KS的计算步骤如下: 1. 计算每个评分区间的好坏账户数。 2. 计算每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%)。 3....
阅读(2616) 评论(0)

[置顶] 【web html】html 知识点

需要掌握部分掌握HTML的全部语法,他的主体结构,超链接及常用标记使用!1、HTML的语法(主要讲解HTML语法格式、文档注释、代码格式) 2、HTML的基本机构(主要讲解的标记) 3、文档设置标记上-格式标记(主要讲解的标记) 4、文档设置标记...
阅读(140) 评论(0)

[置顶] 【matlab 求极限】limit函数求极限

syms x; y1=(4*x^3-2*x^2+x)/(3*x^2+2*x); limit(y1,x,0)>> syms x; y1=(4*x^3-2*x^2+x)/(3*x^2+2*x); limit(y1,x,0)ans =1/2>>...
阅读(524) 评论(0)

[置顶] 【python 可视化】pyecharts + Django 使用指南

本指南按照 Django 官方教程,通过完成一个 Django 小项目来说明如何在 Django 中使用 pyecharts。如果对 Django 还不太熟悉的开发者,可仔细阅读官方提供的最新文档。 Step 0: 使用新的 virtualenv 环境建议开发者使用 1.11.4 版本的 Django$ virtualenv --no-site-packages pyecharts-env $ s...
阅读(2212) 评论(0)

[置顶] 【python 可视化】pyecharts + Flask 使用指南

本指南会以一个小的 Flask 项目为例,说明如何在 Flask 中使用 pyecharts。请确保你已经安装 Flask,还没安装请执行 pip install flask 或其他方式安装。Step 0: 首先新建一个 Flask 项目Linux/macos 系统$ mkdir flask-echarts $ cd flask-echarts $ mkdir templatesWindows 系统...
阅读(1856) 评论(0)

[置顶] 【python 数据可视化】pyecharts的使用

Echarts是百度出的很有名 也很叼。 Echarts 是百度开源的一个数据可视化 JS 库。主要用于数据可视化。 pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。网址: https://github.com/chenjiandongx/pyecharts/blob/master/docs/zh-cn/documenta...
阅读(5083) 评论(5)

[置顶] 【python web】Flask+Echarts 实现动图图表

flask 是python web开发的微框架,Echarts酷炫的功能主要是javascript起作用,将两者结合起来,发挥的作用更大。下面将Echarts嵌套进Flask的html模板中。项目结构: 打开demo.py运行,点击console中的链接http://127.0.0.1:5000/ 就可以看到我们想要的动态图表。demo.py#coding:utf-8from flask impo...
阅读(2573) 评论(3)

[置顶] 【Python NLP入门教程】词频统计和处理停用词,可视化

# coding=utf-8 import requests import sys reload(sys) sys.setdefaultencoding('utf-8') from lxml import etree import time time1=time.time() import bs4 import nltk from bs4 import BeautifulSoup from n...
阅读(458) 评论(0)

[置顶] 【python 数据处理】分组求和、合并

# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import time import pandas as pd import xlsxwriter time1 = time.time() import numpy as np #############读取数据######################...
阅读(322) 评论(0)

[置顶] 【python 爬虫】伪造UA字符串

写好爬虫的原则只有一条: 就是让你的抓取行为和用户访问网站的真实行为尽量一致。1、伪造UA字符串,每次请求都使用随机生成的UA。 为了减少复杂度,随机生成UA的功能通过第三方库fake-useragent实现pip install fake-useragent2、生成一个UA字符串只需要如下代码:核心代码:from fake_useragent import UserAgent ua=UserA...
阅读(1539) 评论(2)

[置顶] 【linux 服务器运行情况】了解Linux服务器运行情况

1、free 在Linux下,使用free命令获取当前内存的使用情况[root@izbp1f0leha0lvmqfhigzpz code]# free -h total used free shared buff/cache available Mem: 1.8G 84M 17...
阅读(166) 评论(0)

[置顶] 【web html】html 大全

h1 {color:red;} p {color:blue;} div { border:2px solid #a1a1a1; padding:10px 40px; background:#dddddd; width:300px;...
阅读(494) 评论(0)

[置顶] 【linux 磁盘管理】Linux磁盘管理常用三个命令为df、du和fdisk。

Linux磁盘管理好坏管理直接关系到整个系统的性能问题。 Linux磁盘管理常用三个命令为df、du和fdisk。df:列出文件系统的整体磁盘使用量 du:检查磁盘空间使用量 fdisk:用于磁盘分区[root@izbp1f0leha0lvmqfhigzpz code]# df Filesystem 1K-blocks Used Available Use% Mounted on /...
阅读(148) 评论(0)

[置顶] 【linux yum常用命令】linux yum 命令

yum常用命令 1.列出所有可更新的软件清单命令:yum check-update2.更新所有软件命令:yum update3.仅安装指定的软件命令:yum install 4.仅更新指定的软件命令:yum update 5.列出所有可安裝的软件清单命令:yum list6.删除软件包命令:yum remove 7....
阅读(217) 评论(0)

[置顶] 【go 通道】go语言通道channel

通过使用通道,在多个goroutine发送和接受共享的数据,达到数据同步的目的。通道,他有点像在两个routine之间架设的管道,一个goroutine可以往这个管道里塞数据,另外一个可以从这个管道里取数据,有点类似于我们说的队列。声明一个通道很简单,我们使用chan关键字即可,除此之外,还要指定通道中发送和接收数据的类型,这样我们才能知道,要发送什么类型的数据给通道,也知道从这个通道里可以接收到什...
阅读(228) 评论(0)

[置顶] 【动态语言和静态语言的比较】动态or静态?

定义:强类型语言(静态类型语言)是指需要进行变量/对象类型声明的语言,一般情况下需要编译执行。例如C/C++/Java/C#/scala/goland弱类型语言(动态类型语言)是指不需要进行变量/对象类型声明的语言,一般情况下不需要编译(但也有编译型的)。例如PHP/ASP/Ruby/Python/Perl/ABAP/SQL/JavaScript/Unix Shell/R语言等等。优势: 强类型的...
阅读(191) 评论(0)

[置顶] 【python 邮件报表】无附件的邮件报表

简化版:#coding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') from mako.template import Template from mako.lookup import TemplateLookup import smtplib from email.mime.text import MIMEText f...
阅读(191) 评论(0)

[置顶] 【linux tree】linux下tree的用法

tree命令,主要功能是创建文件列表,将所有文件以树的形式列出来 linux下的tree就比较强大了,但一般系统并不自带这个命令,需要手动下载安装, 安装 :yum -y install tree-a 显示所有文件和目录。-A 使用ASNI绘图字符显示树状图而非以ASCII字符组合。-C 在文件和目录清单加上色彩,便于区分各种类型。-d 显示目录名称而非内容。-D 列出文件或目录的更改时间。-f...
阅读(215) 评论(0)

[置顶] 【html 表格样式】table 设置

<div style="text-align:center;width:80%;padding: 8px; line-height: 1.42857; vertical-align: top; border-top-width: 1px; border-top-color: rgb(2...
阅读(309) 评论(0)

[置顶] 【python 数据报表】发送带有样式和附件的邮件

给运营和产品同事定期发送一些用于运营和产品决策的统计报表邮件,邮件通常是表格为主体,一般也会带有一个或者多个附件。让邮件带有css样式,让读邮件也成为一件愉快的事情。修改版效果: 版本1:# coding=utf-8import sys reload(sys) sys.setdefaultencoding('utf-8') import os import csv import smtplib f...
阅读(1274) 评论(0)

[置顶] 【python 文件加密算法】python检测文件的MD5值

具体来说,每个文件都会有一个MD5的加密值,这个值来唯一标识这个文件大文件加密算法:# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8')############################导入相应的包########################### import hashlib import os...
阅读(237) 评论(0)

[置顶] 【python Django】django入门教程1

1。创建一个项目确保你的电脑上装了python和Django。我的是在python2.7和Django-1.10.5实现的。win+R,cmd进入命令行,在命令行输入:(我是进入D盘创建的mysite文件夹)D: django-admin django-admin startproject mysite cd mysite python manage.py创建的项目目录结构 运行一下:python...
阅读(184) 评论(0)

[置顶] 【python 数据标准化】利用sklearn做标准化

# -*- coding: utf-8 -*- from __future__ import division import sys reload(sys) sys.setdefaultencoding('utf-8') import pandas as pd from sklearn import preprocessing import numpy as np # pandas读取 Excel...
阅读(247) 评论(0)

[置顶] 【python 加密解密】python中的加密解密模块使用

# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8')#######################Base64加密解密(可逆)################### # Base64编码,64指A-Z、a-z、0-9、+和/这64个字符,还有“=”号不属于编码字符,而是填充字符 import base64...
阅读(1016) 评论(0)

[置顶] 【go语言 curl】golang版本的curl请求库

github源码网站:https://github.com/mikemintang/go-curl如何安装包go get github.com/mikemintang/go-curl发送post请求:package mainimport ( "fmt" "github.com/mikemintang/go-curl" )func main() { url := "http://...
阅读(747) 评论(0)

[置顶] 【go语言 slice】迭代slice

go语言内置一个关键字range用于迭代集合,当然他也可以迭代slice,也可以使用 _ 来忽略我们不关心的元素,但是如果只关心index则不需这么写 for index,_ := range slice1。下在给出完整代码package main import ( "fmt")func main() { // 创建一个容量和长度均为6的slice slice1 := [...
阅读(145) 评论(0)

[置顶] 【python 分组求和功能】类似透视表的作用

# encoding: utf-8import sys reload(sys) sys.setdefaultencoding('utf-8') import time import pandas as pd import xlsxwriter time1 = time.time() import numpy as np #############读取数据#######################...
阅读(321) 评论(0)

[置顶] 【go 指针数组】go语言中的指针数组

声明一个包含有5个整数指针类型的数组,我们可以在初始化时给相应位置的元素默认值。下面是给索引为0的元素一个新建的的int类型指针(默认为0),给索引为1的元素指向值v的地址,剩下的没有指定默认值的元素为指针的zero值也就是nilpackage mainimport "fmt"func main() { var v int = 6 array := [5]*int{0: new(in...
阅读(434) 评论(0)

[置顶] 【linux C语言开发】阿里云服务器下c语言开发

1、linux下安装C语言环境yum -y install gcc yum install gcc gcc-c++2、linux下建立.c文件mkdir HelloWorld cd HelloWorld touch hello.c#include void main() { int i,sum=0; for(i=1;i<=100;i++){ sum+=i; } pr...
阅读(260) 评论(0)

[置顶] 【python linux下定时任务跑】crontab -e使用

1、shell 下 执行 python程序#!/bin/shpython /home/laidefa/msg_json/code/request_msg_json.pypython /home/laidefa/msg_json/code/ftp_uploadfile.py2、crontab -e 下执行定时任务跑python脚本每天八天半执行 每天八点四十执行# 30 8 * * * python...
阅读(1348) 评论(0)

[置顶] 【python 写入数据到excel】自定义写入数据到excel顺序 排列

例子1数据框顺序写入Excel: data=a import xlsxwriter workbook = xlsxwriter.Workbook('F:/chart1.xlsx') worksheet = workbook.add_worksheet('请求接口')title = [u'订单号',u'债权编号',u'请求参数',u'创建时间',u'结果']print data.iloc[:,0]fo...
阅读(1663) 评论(0)

[置顶] 【python 域名所有者识别】python 识别网站域名 所有者

对于一些网站,我们可能会关心其所有者是谁。为了找到网站的所有者,我们可以使用WHOIS协议查询域名的注册者是谁。Python中有一个对该协议的封装库。我们可以通过pip进行安装。pip install python-whois导入模块 import whois>>> import whois >>> whois.whois('https://www.cgtz.com/') {u'updated_da...
阅读(167) 评论(0)

[置顶] 【python 爬虫】识别网站所用技术

有一个十分有用的工具可以检查网站构建的技术类型——builtwith 模块(只支持python2环境,python3环境报错)。pip install builtwith该模块将 URL 作为参数,下载该 URL 并对其进行分析,然后返回该网站使用的技术。举个例子:>>> import builtwith >>> builtwith.parse('http://xxxxxxxxxxxxxxxxxx'...
阅读(572) 评论(0)

[置顶] 【linux下 scrapy 安装】Python.h: No such file or directory

pip install scrapy出现错误: Python.h: No such file or directory解决办法:# CentOS 使用下面命令 # yum install python-devel...
阅读(346) 评论(0)

[置顶] 【python FTP】python操作FTP

上传来一个简单例子#!/usr/bin/python #coding=utf-8 from ftplib import FTP #引入ftp模块 import os ftp = FTP("ip") #设置ftp服务器地址 ftp.login('username', 'password') #...
阅读(218) 评论(0)

[置顶] 【mysql 中文和英文长度】mysql 如何 计算中文和英文的长度

如何实现计算一串字符长度,中文算2 非中文算1SELECT CHAR_LENGTH(‘aaa你好’)+(LENGTH(‘aaa你好’)-CHAR_LENGTH(‘aaa你好’))/2...
阅读(183) 评论(0)

[置顶] 【python 读取mysql数据】Python如何读取MySQL数据库表数据

目的:从MySQL数据库读取目标表数据,并处理# -*- coding: utf-8 -*-import pandas as pd import pymysql## 加上字符集参数,防止中文乱码 dbconn=pymysql.connect( host="**********", database="kimbo", user="kimbo_test", password="*****...
阅读(390) 评论(0)

[置顶] 【R语言 linux环境配置】linux下安装R语言

tar -zxvf R-3.4.1.tar.gz cd R-3.4.1yum install gcc-gfortran yum install gcc gcc-c++ yum install readline-devel yum install libXt-devel yum install zlib-devel yum -y install bzi...
阅读(285) 评论(0)

[置顶] 【java 环境变量配置】linux下java环境变量配置

vim /etc/profileexport JAVA_HOME=/usr/share/jdk1.6.0_14 export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar...
阅读(197) 评论(0)

[置顶] 【python 爬虫】百度贴吧帖子所有楼层图片爬虫

下载百度贴吧帖子图片,好好看 python2.7版本:#coding=utf-8 import re import requests import urllib from bs4 import BeautifulSoup import time time1=time.time() def getHtml(url): page = requests.get(url) html =pa...
阅读(264) 评论(0)

[置顶] 【go语言 安装第三方包】阿里云下go语言如何装第三方包?

1、创建gopath文件夹及子文件夹创建文件 gopath,并且 在 gopath 目录下创建三个子文件夹。 bin pkg srcmkdir gopath cd gopath mkdir bin pkg src2、安装gityum install git3、设置gopath路径vim /etc/profile GOPATH=/root/software/gopath使之生效source /et...
阅读(165) 评论(0)

[置顶] 【linux go语言安装】阿里云下go语言如何安装?

1、到go语言中文网下载go在linux下的安装包 下载网址:https://studygolang.com/dl 如果是64位的linux系统,就下载64位,32位的就下载32位的。 如何查看是64位,还是32位?uname -a2、将下载的安装包上传到服务器rz 3、上传成功之后,解压缩tar -zxvf go1.9.linux-amd64.tar.gz4、解压成功后,设置环境变量PATH...
阅读(381) 评论(0)

[置顶] AttributeError: 'module' object has no attribute '_base' 可行解决办法

报错误: class TreeBuilderForHtml5lib(html5lib.treebuilders._base.TreeBuilder): AttributeError: ‘module’ object has no attribute ‘_base’解决办法:要升级html5lib库至1.0b8 可以解决问题.pip install --upgrade html5lib==1.0b...
阅读(238) 评论(0)

[置顶] 【scrapy ip代理池】如何解决ip被限制的问题

1、首先写一个脚本proxies.py 自动获取代理ip# *-* coding:utf-8 *-* import requests from bs4 import BeautifulSoup import lxml from multiprocessing import Process, Queue import random import json import time import req...
阅读(1107) 评论(0)

[置顶] 【python 资料整理】机器学习、数学、Python 速查表

1、机器学习 http://www.asimovinstitute.org/neural-network-zoo/https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-algorithm-cheat-sheethttp://blogs.sas.com/content/subconsciousmusings/...
阅读(234) 评论(0)

[置顶] 【python 数据框重命名列名】Pandas中DateFrame修改列名

1、加载数据:>>>import pandas as pd >>>a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]}) >>> a A B C 0 1 4 7 1 2 5 8 2 3 6 92、最好的方法>>>a.rename(columns={'A':'a', 'B':'b', 'C':'c'}, inpl...
阅读(995) 评论(0)

[置顶] 【python 接口开发】如何用python开发自己的接口

1、需要安装的模块 安装两个包pip install flask pip install flask-restful2、一个最小的接口像这样:# coding=utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8')from flask import Flask import flask_restful app = Flask(__n...
阅读(1593) 评论(0)

[置顶] 【python Flask】Flask-Bootstrap的使用

Bootstrap是 Twitter 开发的一个开源框架,它提供的用户界面组件可用于创建整洁且具有吸引力的网页,而且这些网页还能兼容所有现代 Web 浏览器。1、如何安装?要想在程序中集成 Bootstrap, 显然要对模板做所有必要的改动。不过,更简单的方法是使用一个名为 Flask-Bootstrap 的 Flask 扩 展,简化集成的过程。 Flask-Bootstrap 使用 pip安装:p...
阅读(444) 评论(0)

[置顶] 【linux 解压】Centos下解压rar、zip文件的方法

wget http://www.rarsoft.com/rar/rarlinux-4.0.1.tar.gztar -zxvf rarlinux-4.0.1.tar.gzcd rar make看见下面这些信息就是安装成功了mkdir -p /usr/local/binmkdir -p /usr/local/libcp rar unrar /usr/local/bincp rarfiles.lst /e...
阅读(408) 评论(0)

[置顶] 【R 可视化】R语言画函数图

rm(list=ls()) x=seq(-0.99,5,0.1) f=log2(sqrt(x+1)) plot(x,f,type="l", lwd=2,col="red",ylim=c(-2,2),main="f=log2(sqrt(x+1)")...
阅读(535) 评论(0)

[置顶] 【acsess 多个left join】acsess 数据库 多个left join关联

selectw1.f2,w1.f4,(w1.f16_6s+w2.f16_3+w3.f16_4+w4.f16_5) as total_scorefrom(((( selectm.f2,m.f4,iif(m.f4 in ('总经办','财务部','人事部','业务部','采购部','生产部','PMC','技术部'),m.f16_12*0.3,iif(m.f4 in ('品保部','机加课','拋光课'...
阅读(226) 评论(0)

[置顶] 【R语言 预测数值型数据】多元回归、神经网络预测数值型目标变量

rm(list = ls()) gc()######################读取数据###################### data <- read.csv("C:/train.csv",sep=",",header=T)data <- data[-1]# data <- data[sample(1:nrow(data),500),] #######################试过...
阅读(453) 评论(0)

[置顶] 【mysql 分组取前几条】 先按某字段分组再取每组中前N条记录

先造数据 1、建表CREATE TABLE `t2` ( `id` int(11) NOT NULL, `gid` char(1) DEFAULT NULL, `col1` int(11) DEFAULT NULL, `col2` int(11) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=u...
阅读(740) 评论(0)

[置顶] 【R语言 数据处理】R做数据处理中的小技巧

一、主要内容 创建新变量 修改数据 修改变量名 处理缺失值 数据排序 数据合并 数据筛选 抽样二、R语言代码rm(list=ls()) gc() manager <- c(1,2,3,4,5) date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08", "5/1/09") country <- c("US", "US", "UK"...
阅读(646) 评论(0)

[置顶] 【scala 语法基础】变量、函数、控制结构、数据类型

一、主要内容 Scala中变量的声明与函数定义 Scala中的控制结构 Scala中的数据类型1:变量声明与函数定义 变量声明:val 和 var ,两者的区别是val声明的变量是不可变的,而var声明的变量可变带返回值scala> def max(x:Int,y:Int):Int = { | if(x>y) x | else y...
阅读(171) 评论(0)

[置顶] 【二分-kMeans算法】二分K均值聚类分析与Python代码实现

一、k-means算法优缺点 k均值简单并且可以用于各种数据类型,它相当有效,尽管常常多次运行。然后k均值并不适合所有的数据类型。它不能处理非球形簇,不同尺寸和不同密度的簇。对包含离群点(噪声点)的数据进行聚类时,k均值也有问题。二、k-means算法python实现#encoding:utf-8 from numpy import *def loadDataSet(filename):...
阅读(307) 评论(0)

[置顶] 【ML--15】在R语言中使用决策树算法做多分类预测

1、R实现代码####################################决策树算法################# rm(list=ls()) gc() options(scipen = 200) library(party) iris <- iris ##########划分训练和测试集################# set.seed(2016) train.indeces<-...
阅读(697) 评论(0)

[置顶] 【ML--14】在R语言中使用SVM算法做多分类预测

我们采用iris数据集进行学习和测试,最后看看它的效果。 1、载入SVM算法包library(e1071)2、划分训练和测试集划分训练和测试集时,采用set.seed函数设随机数种子,这能保证划分得到的训练和测试集与C5.0完全相同,方便后续测试效果的比较。set.seed(2016) train.indeces<-sample(1:nrow(iris),100) iris.train<-ir...
阅读(486) 评论(0)

[置顶] 【R语言 爬虫】Rwebdriver 安装方法

RSelenium和Rwebdriver个人刚接触不久,除了语法不太一样以为,都是调用的Selenium Server。一个是2012年发布的包,一个是比较新的包需要在github下载。个人推荐使用Rwebdriver,不仅因为新,跟python里的RSelenium函数很多非常相似。安装步骤library(devtools)#如果没有安装要下载安装 install_github(repo = "...
阅读(395) 评论(0)

[置顶] 【mysql 增删改查】MySql数据库的查询、删除、增加、修改语句

介绍mysql数据库的基本操作,曾、删、查、改。查询表的外连接等常用数据库语句。设置数据库可以被其他计算机连接 。1、查询数据:select * from xxx; 例子:(1)select id,username,password from t_user; (2)select id,username,password,gender from t_user where gender = '男';...
阅读(257) 评论(0)

[置顶] 【python txt合并】python合并同一个文件夹下所有txt文件

一、需求分析 合并一个文件夹下所有txt文件 二、合并效果 三、python实现代码# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8')import os import os.path import time time1=time.time()##########################合...
阅读(836) 评论(0)

[置顶] 【python Excel 合并】python合并同一个文件夹下所有excel文件

一、需求说明 一个文件夹下有多个excel表格,格式统一,均为 xlsx后缀,字段也一样,现在要合并为一个excel表格。 二、合并效果 三、python 实现代码# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import pandas as pd import os import os...
阅读(613) 评论(0)

[置顶] 【python PDF合并】python 合并同一个文件夹下所有PDF文件

一、需求说明 下载了网易云课堂的吴恩达免费的深度学习的pdf文档,但是每一节是一个pdf,我把这些PDF文档放在一个文件夹下,希望合并成一个PDF文件。于是写了一个python程序,很好的解决了这个问题。二、数据形式 三、合并效果 四、python代码实现# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultenco...
阅读(2537) 评论(0)

[置顶] 【python 图像绘制】图像绘制知识总结

颜色图谱 具体颜色描述 autumn 红橙黄 cool 青-洋红 copper 黑-铜 flag 红-白-蓝-黑 gray 黑-白 hot 黑-红-黄-白 hsv hsv颜色空间, 红-黄-绿-青-蓝-洋红-红 inferno 黑-红-黄 jet 蓝-青-黄-红 magma 黑-红-白 pink 黑-粉-白 plasma 绿-红-黄 prism 红-黄-绿...
阅读(304) 评论(0)

[置顶] 【python 图像处理】skimage的子模块介绍

skimage包的全称是scikit-image SciKit (toolkit for SciPy) ,它对scipy.ndimage进行了扩展,提供了更多的图片处理功能。它是由python语言编写的,由scipy 社区开发和维护。skimage包由许多的子模块组成,各个子模块提供不同的功能。主要子模块如下:io:读取、保存和显示图片或视频 data:提供一些测试图片和样本数据 color:颜色空...
阅读(675) 评论(0)

[置顶] 【python 图像切割】matplotlib读取图像,裁剪图像

#-*-coding:utf-8-*- import sys reload(sys) sys.setdefaultencoding('utf-8')import matplotlib.pylab as plt # 加载图像 im = plt.imread("E:/ID/2.png")print(im.shape)# (y轴像素点数, x轴像素点数,图像通道数) def plti(im, **kwar...
阅读(496) 评论(0)

[置顶] 【matlab 图像处理】MATLAB中图像处理的函数

MATLAB 图像处理命令1、 MATLAB中图像处理的一些简单函数A、 imread imread函数用于读入各种图像文件,其一般的用法为 [X,MAP]=imread(‘filename’,‘fmt’)其中,X,MAP分别为读出的图像数据和颜色表数据,fmt为图像的格式,filename为读取的图像文件(可以加上文件的路径)。例:[X,MAP]=imread(’flowers.tif’,’t...
阅读(411) 评论(0)

[置顶] 【python 爬虫】linux 下 selenium+phantomjs 自动模拟登陆

#!/usr/bin/python #-*-coding:utf-8-*- import urllib import re import sys reload(sys) sys.setdefaultencoding('utf-8') import urllib2 import json import pandas as pd import time time1 = time.time()# yest...
阅读(1061) 评论(0)

[置顶] 【python 人脸检测】opencv 进行人脸检测

#coding=utf-8 import time time1=time.time() import cv2 #初始化 opencv 的 Cascade Classification,它的作用是产生一个检测器 faceCascade = cv2.CascadeClassifier("E:/haarcascade_frontalface_default.xml") image = cv2.imread...
阅读(1294) 评论(0)

[置顶] 【python 验证码】产生中文验证码

#-*-coding:utf-8-*- import sys reload(sys) sys.setdefaultencoding('utf-8')from PIL import ImageDraw,ImageFont from PIL import Image import random import math, stringclass RandomChar(): @staticmethod...
阅读(2847) 评论(0)

[置顶] 【python 爬虫】python中url链接编码处理方法

一、问题描述 有些网址,会把中文编码成gb2312格式,例如百度知道,美容这一词,网址上面会编码成:%C3%C0%C8%DD那么如何生成这种编码呢?二、解决方法 1、把要编码的文字encode成所需格式 2、利用urllib 库的quote方法编码# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8'...
阅读(1448) 评论(0)

[置顶] 【python 爬虫】python如何以request payload形式发送post请求

普通的http的post请求的请求content-type类型是:Content-Type:application/x-www-form-urlencoded, 而另外一种形式request payload,其Content-Type为application/jsonimport json url = 'https://api.github.com/some/endpoint' payload =...
阅读(2660) 评论(0)

[置顶] 【ML--13】聚类--层次聚类

一、基本概念 层次聚类不需要指定聚类的数目,首先它是将数据中的每个实例看作一个类,然后将最相似的两个类合并,该过程迭代计算只到剩下一个类为止,类由两个子类构成,每个子类又由更小的两个子类构成。层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足或者达到最大迭代次数。具体又可分为: 凝聚的层次聚类(AGNES算法):一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的...
阅读(203) 评论(0)

[置顶] 【python 图像拼接】 微信好友头像下载和拼接技术

今天突发奇想,想到图像拼接的技术,做了一个自己微信好友的图像拼接,感觉还蛮好玩的。5*5 10*10 19*19 实现代码1:微信头像爬虫:#-*-coding:utf-8-*- import urllib import re import sys reload(sys) sys.setdefaultencoding('utf-8') import itchat import math imp...
阅读(1606) 评论(0)

[置顶] 【ML--12】聚类---K-means算法

1. 归类: 聚类(clustering) 属于非监督学习 (unsupervised learning) 无类别标记(class label)2. 举例:3. K-means 算法: 3.1 Clustering 中的经典算法,数据挖掘十大经典算法之一 3.2 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:...
阅读(266) 评论(0)

[置顶] 【DL--22】实现神经网络算法NeuralNetwork以及手写数字识别

1.NeuralNetwork.py#coding:utf-8import numpy as np#定义双曲函数和他们的导数 def tanh(x): return np.tanh(x)def tanh_deriv(x): return 1.0 - np.tanh(x)**2def logistic(x): return 1/(1 + np.exp(-x))def logis...
阅读(1263) 评论(0)

[置顶] 【python 图像检测】图像模糊检测算法

一、需求说明如果图片模糊应该让客户端进行重拍,这个功能还是比较重要的,因此希望通过算法自动检测一张图片是否模糊,程序自动判别出来图像的模糊程度。二、开发工具运行环境:python2.7 计算机视觉库:opencv三、算法流程3.1、读入原始图像 3.2、对原始图像进行灰度化 3.3、用3x3的拉普拉斯算子进行滤波处理 4.4、计算处理后图像的均值和方差 3.5、将方差当做模糊检测的阈值,如...
阅读(1631) 评论(1)

[置顶] 【python 爬虫】全国失信被执行人名单爬虫

一、需求说明 通过百度的接口,爬取全国失信被执行人名单。翻页爬虫,获取姓名,身份证等信息。二、python实现版本1:# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests time1=time.time() import pandas as pd...
阅读(580) 评论(0)

[置顶] 【python 爬虫】全国失信被执行人名单查询功能

一、需求说明 利用百度的接口,实现一个全国失信被执行人名单查询功能。输入姓名,查询是否在全国失信被执行人名单中。二、python实现# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests time1=time.time() import p...
阅读(1573) 评论(0)

[置顶] 【深度学习 环境配置】软件包安装和环境配置

OS: Linux: Ubuntu 14.04安装:1. Pip (Python 2.7.9或以上自带pip): sudo apt-get install pyton-pip2. 尝试安装scikit-neuralnetwork: 需要 numpy scipy theanosudo pip install scikit-neuralnetwork错误:SystemError: cannot co...
阅读(268) 评论(0)

[置顶] 【DL--21】深度学习57个专业术语

激活函数(Activation Function)为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性激活函数。最常用的函数包括 sigmoid、tanh、ReLU(Rectified Linear Unit 线性修正单元) 以及这些函数的变体。AdadeltaAdadelta 是一个基于梯度下降的学习算法,可以随时间调整适应每个参数的学习率。它...
阅读(1575) 评论(0)

[置顶] 【DL--20】各种编程语言的深度学习库整理

本文总结了Python、Matlab、CPP、Java、JavaScript、Lua、Julia、Lisp、Haskell、.NET、R等语言的深度学习库,赶紧收藏吧!Python1. Theano是一个python类库,用数组向量来定义和计算数学表达式。它使得在Python环境下编写深度学习算法变得简单。在它基础之上还搭建了许多类库。 1.Keras是一个简洁、高度模块化的神经网络库,它的设计参考...
阅读(1075) 评论(0)

[置顶] 【DL--19】R语言---python 使用MLP分类 MNIST 手写数字

R语言版本:rm(list=ls()) gc()library(keras) library(tensorflow) # #加载keras中 内置的 mnist 数据集 data<-dataset_mnist() #分离训练和测试文件 train_x<-data$train$x train_y<-data$train$y test_x<-data$test$x test_y<-data$test$y...
阅读(245) 评论(0)

[置顶] 【DL--18】Windows下基于Anaconda的Tensorflow环境配置

1、Anaconda下载安装:https://www.continuum.io/downloads 版本为:Anaconda3,for windows,64bit(tensorflow在windows下只支持Python 3.5以上、amd64)2、Anaconda使用:打开“开始目录”,找到Anaconda/Anaconda prompt,以管理员权限运行,否则会出现permission den...
阅读(258) 评论(0)

[置顶] 【DL--17】在R中使用Keras和TensorFlow

随着 采用R基于tensorflow (CPU 和 GPU 兼容)的Keras 库的发布,R语言也进军深度学习啦,下面开始安装TensorFlow 和Keras ,因为Keras 包含了TensorFlow ,我们只需要安装Keras即可。一、安装: install.packages("devtools") devtools::install_github("rstudio/keras...
阅读(2309) 评论(1)

[置顶] 【DL--16】深度学习架构清单

1. AlexNet AlexNet 是首个深度架构,它由深度学习先驱 Geoffrey Hinton 及其同僚共同引入。AlexNet 是一个简单却功能强大的网络架构,为深度学习的开创性研究铺平了道路。论文:ImageNet Classification with Deep Convolutional Neural Networks 链接:https://papers.nips.cc/pape...
阅读(200) 评论(0)

[置顶] 【mysql 卡死处理】MYSQL--慢查询卡死等处理

命令: show processlist; 如果是root帐号,你能看到所有用户的当前连接。如果是其它普通帐号,只能看到自己占用的连接。 show processlist;只列出前100条,如果想全列出请使用show full processlist; mysql> show processlist;发现可以线程。 可以kill 线程号;show OPEN TABLES where...
阅读(1557) 评论(0)

[置顶] 【R语言 矩阵相乘】R语言矩阵相乘100次

【D1 D2】2*1 【T1 T2】1*2我想让帮做这么一个简单的矩阵,要求D1和D2随机的变动rm(list=ls()) gc()options(scipen = 2000) #################定义TT矩阵(1*2) TT <- matrix(c(1,3),1,2)DD<- matrix(c(1,2),2,1) result1 <- DD %*% TT#############...
阅读(1392) 评论(0)

[置顶] 【python 爬虫】身份证归属地爬虫

输入数据:身份证号码 # -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests from lxml import etree time1=time.time() import pandas as pd df = pd.read_csv('F:/shen...
阅读(787) 评论(0)

[置顶] 【python 爬虫】selenium爬虫模块 phantomjs如何加代理IP

phantomjs在初始化WebDriver时就没有留proxy参数 所以可以像下图一样改一下phantomjs类的源码,就可以在phantomjs中传入proxy参数了修改 下面的代码:class WebDriver(RemoteWebDriver): """ Wrapper to communicate with PhantomJS through Ghostdriver....
阅读(1642) 评论(0)

[置顶] 【ML--11】数据挖掘岗位需要具备的3 种基本能力

1. 工程能力( 1 )编程基础:需要掌握一大一小两门语言,大的指 C++ 或者 Java ,小的指Python 或者 shell 脚本;需要掌握基本的数据库语言;建议:MySQL + python + C++ ;语言只是一种工具,看看语法就好;推荐书籍:《C++ primer plus 》( 2 )开发平台: Linux ;建议:掌握常见的命令,掌握 Linux 下的源码编译原理;推荐书籍:《Li...
阅读(1422) 评论(0)

[置顶] 【ML--10】常用的机器学习&数据挖掘知识(点)总结

Basis(基础):MSE(Mean Square Error 均方误差), LMS(LeastMean Square 最小均方), LSM(Least Square Methods 最小二乘法), MLE(MaximumLikelihood Estimation最大似然估计), QP(Quadratic Programming 二次规划), CP(Conditional Probabil...
阅读(2474) 评论(0)

[置顶] 【R语言 聚类比较】k-means 与dbscan

DBSCAN的算法是将所有点标记为核心点、边界点或噪声点,将任意两个距离小于eps的核心点归为同一个簇。任何与核心点足够近的边界点也放到与之相同的簇中。下面我们来使用R语言中的fpc包来对上面的例子实施密度聚类。其中eps参数设为0.6,即两个点之间距离小于0.6则归为一个簇,而阀值MinPts设为4。从上图可以看到,DBSCAN方法很好的划分了两个簇。其中要注意参数eps的设置,如果eps设置过大...
阅读(2545) 评论(0)

[置顶] 【Python 密度聚类】Python实现DBScan

输入: /* 788points.txt */ 15.55,28.65 14.9,27.55 14.45,28.35 14.15,28.8 13.75,28.05 13.35,28.45 13,29.15 13.45,27.5 13.6,26.5 12.8,27.35 12.4,27.85 12.3,28.4 12.2,28.65 13.4,25.1 12.95,25...
阅读(1767) 评论(4)

[置顶] 【python StringIO模块】感受内存文件的速度优势

此模块主要用于在内存缓冲区中读写数据。模块是用类编写的,只有一个StringIO类,所以它的可用方法都在类中。此类中的大部分函数都与对文件的操作方法类似。import StringIO output = StringIO.StringIO() output.write('Hello World!') contents = output.getvalue() print contents output...
阅读(1311) 评论(0)

[置顶] 【ML--09】决策树算法Decision Tree

一、三个决策树算法介绍 @1、信息增益:ID3 选择具有最高信息增益的属性作为节点N的分裂属性。举个例子: 首先使用(8.1)式计算D中元组分类所需要的期望信息:Info(D)=-log₂(9/14)(9/14)-log₂(5/14)(5/14)=0.94下一步计算每个属性的期望信息需求。从属性age开始,需要对age的每个类考察Yes和NO元组的分布。对于age的类“youth”,有2个ye...
阅读(2029) 评论(0)

[置顶] 【python 手机号码归属地】手机号码归属地获取

利用python第三方包phone# encoding: utf-8 import time import pandas as pd import sys reload(sys) sys.setdefaultencoding('utf-8') import json from phone import Phone time1 = time.time()province1=[] phone_type1...
阅读(1928) 评论(0)

[置顶] 【验证码识别】验证码识别一般思路

1、在计算机中彩色图片是由像素点组成,像素点由R(红)G(绿)B(蓝)三原色组成,在验证码识别过程中,一般把需要识别的字符称为前景,其他的称为背景2、灰度化:即将彩色图像转化为灰度图像,一般有以下三种方法 1)最大值法:命R、G、B的值等于三者中最大值,即R=G=B=max(R,G,B),这种方法会形成亮度很高的图像 2)平均值法:命R、G、B的值等于三者的平均值,即R=G=B=avg(R,G...
阅读(1478) 评论(0)

[置顶] 【Tesseract-OCR】Tesseract训练中文字体识别

字体训练我准备了一份含汉语7000字和大小写英文字母和数字的文档.如果你需要训练所有中文的话,请将所有docx文件内所有字改成你要训练的字体。然后转化成tif格式的图片。步骤(转自tesseract的github)1、Prepare training text. 准备你的训练文本2、Render text to image + box file. (Or create hand-made box...
阅读(3797) 评论(0)

[置顶] 【Tesseract-OCR】玩转OCR中文识别

一、准备工作: 1、下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行。 2、下载chi_sim.traindata字库。要有这个才能识别中文。下好后,放到Tesseract-OCR项目的tessdata文件夹里面。 3、下载jTessBoxEditor,这个是用来训练字库的,下好后,放到Tesseract-OCR项目下面。 以上的几个在百度都能找到下载,就不...
阅读(3275) 评论(0)

[置顶] 【R 语言爬虫】rvest 包实战链家爬虫

rvest包简介rvest包是Hadley Wickham大神开发的一个专门用于网络数据抓取的R语言包,目前的发行版本为0.3.2,关于rvest包的描述以及用法可参考rvest帮助文档,花上一点时间阅读帮助文档,相信你就可以写出自己的爬虫了。help(package=“rvest”)rvest帮助文档: http://127.0.0.1:17483/library/rvest/html/00Ind...
阅读(3625) 评论(0)

[置顶] 【ML--08】线性判别法和距离判别法

线性判别法的原理 用一条直线来划分学习集 然后根据待测点在直线的哪一边决定它的分类。rm(list=ls()) G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2) x1=c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8,0.2,-0.1,0.4,2.7,2.1,-4.6,-1.7,-2.6,2.6,-...
阅读(2237) 评论(0)

[置顶] 【DL--15】运行一个TensorFlow

$ python >>> import tensorflow as tf >>> hello = tf.constant('Hello, TensorFlow!') >>> sess = tf.Session() >>> print sess.run(hello) Hello, TensorFlow! >>> a = tf.constant(10) >>> b = tf.constant(32) >...
阅读(1327) 评论(0)

[置顶] 【DL--14】Keras案例学习-- CNN做手写字符分类(mnist_cnn )

'''Trains a simple convnet on the MNIST dataset.Gets to 99.25% test accuracy after 12 epochs (there is still a lot of margin for parameter tuning). 16 seconds per epoch on a GRID K520 GPU. '''from __fu...
阅读(528) 评论(0)

[置顶] 【DL--13】CNN 两大特性(局部连接、权重共享)

在多层感知器模型中,神经元通常是全部连接,参数较多。而卷积层的参数较少,这也是由卷积层的主要特性即局部连接和共享权重所决定。局部连接:每个神经元仅与输入神经元的一块区域连接,这块局部区域称作感受野(receptive field)。在图像卷积操作中,即神经元在空间维度(spatial dimension,即上图示例H和W所在的平面)是局部连接,但在深度上是全部连接。对于二维图像本身而言,也是局部像素...
阅读(1342) 评论(0)

[置顶] 【DL--12】LeNet5的基本结构

一种典型的用来识别数字的卷积网络是LeNet-5(效果和paper等见这)。当年美国大多数银行就是用它来识别支票上面的手写数字的。能够达到这种商用的地步,它的准确性可想而知。毕竟目前学术界和工业界的结合是最受争议的。1.C1层是一个卷积层(为什么是卷积?卷积运算一个重要的特点就是,通过卷积运算,可以使原信号特征增强,并且降低噪音),由6个特征图Feature Map构成。特征图中每个神经元与输入中5...
阅读(284) 评论(0)

[置顶] 【DL--12】Theano入门

Theano是一个Python库,专门用于定义、优化、求值数学表达式,效率高,适用于多维数组。特别适合做机器学习。一般来说,使用时需要安装python和numpy. 首先回顾一下机器学习的东西,定义一个模型(函数)f(x;w) x为输入,w为模型参数,然后定义一个损失函数c(f),通过数据驱动在一堆模型函数中选择最优的函数就是训练training的过程,在机器学习中训练一般采用梯度下降法gradie...
阅读(193) 评论(0)

[置顶] 【DL--11】win7 64安装theano的简单方法

参考了很多网上的方法,总结出最简单的方法,作为备忘录。    第一步:安装MinGW      注意这一步一定要安装mingw64位,要不然在后面编译theano的函数时可能编译不过。   mingw64我下载的传到我的csdn资源,里面含有gcc,g++等常用编译器。   链接如下:   http://download.csdn.net/detail/leehomwanglj/864...
阅读(246) 评论(0)

[置顶] 【ML--07】机器学习知识点及其算法实现sklearn

以下10种算法是现在最流行的机器学习算法(含python代码),几乎可以解决绝大部分的问题。1.线性回归 Linear Regression线性回归是利用连续性变量来估计实际数值(例如房价,呼叫次数和总销售额等)。我们通过线性回归算法找出自变量和因变量间的最佳线性关系,图形上可以确定一条最佳直线。这条最佳直线就是回归线。这个回归关系可以用Y=aX+b 表示。Python 代码:#Import Lib...
阅读(389) 评论(0)

[置顶] 【DL--10】AI我深度上,TensorFlow安装教程

什么是TensorFlow?TensorFlow 是谷歌开发的第二个机器学习框架,可用于设计、构建和训练深度学习模型。你可以使用 TensorFlow 库进行数值计算,这本身似乎并没有什么特别的,但这些计算是使用数据流图完成的。在这些图中,节点表示数学运算,而边则表示数据——通常是多维的数组或张量,在这些边之间传递。一直尝试在Linux 下安装好python 环境的 TensorFlow ,无奈次次...
阅读(238) 评论(0)

[置顶] 【python 图像处理】Python图像处理模块pillow子模块Image用法精要

Image是pillow库中一个非常重要的模块,提供了大量用于图像处理的方法。使用该模块时,首先需要导入。>>> from PIL import Image接下来,我们通过几个示例来简单演示一下这个模块的用法。 (1)打开图像文件>>> im = Image.open('sample.jpg')(2)显示图像>>> im.show()(3)查看图像信息>>> im.format #查看图像格式‘...
阅读(466) 评论(0)

[置顶] 【python 图像处理】Python 图像处理库 Pillow 入门

Pillow是Python里的图像处理库(PIL:Python Image Library),提供了了广泛的文件格式支持,强大的图像处理能力,主要包括图像储存、图像显示、格式转换以及基本的图像处理操作等。1)使用 Image 类PIL最重要的类是 Image class, 你可以通过多种方法创建这个类的实例;你可以从文件加载图像,或者处理其他图像, 或者从 scratch 创建。要从文件加载图像,可...
阅读(433) 评论(0)

[置顶] 【DL--09】神经网络,需要知道的数学公式

推导数学公式:...
阅读(214) 评论(0)

[置顶] 【mysql 错误】1209 - The MySQL server is running with the --read-only option so it cannot execute this s

1209 - The MySQL server is running with the–read-only option so it cannot execute this statement一般这个错误有两种原因:1.连到从库了。从库一般设置为只读。2.主库的read_only参数被修改为1为了先解决问题,先去查询主库上read_only参数的值。果然read_only被设置为1.手工修改为0后,...
阅读(857) 评论(0)

[置顶] 【ML--06】主成分分析PCA

一、什么是主成分? 主成分分析(Principal Component Analysis, PCA)在做的事情:找到原始变量的线性组合,也就是所谓的主成分,使得组合后得到变量的方差最大化。二、主成分分析与因子分析有什么区别? 因子分析是把变量表示成各公因子的线性组合; 主成分分析中则是把主成分表示成各变量的线性组合。sklearn 实现PCA# coding=utf-8 import sys...
阅读(302) 评论(0)

[置顶] 【DL--08】深度学习 用于处理图像的CNN

什么是CNN Covolutional Neural Network,卷积神经网络 卷积是指将一些数线性加权,卷起来一维卷积: ● 三个数a1、a2、a3 ● 权值w1、w2、w3 ● 卷起来,w1*a1+w2*a2+w3*a3 ● 卷积窗口大小为3二维卷积: ● 九个数a11、a12、a13、a21、a22、a23、a31、a32、a33 ● 权值w11、w...
阅读(188) 评论(0)

[置顶] 【python 图像压缩算法】opencv图像压缩

插值方法: CV_INTER_NN - 最近邻插值, CV_INTER_LINEAR - 双线性插值 (缺省使用) CV_INTER_AREA - 使用象素关系重采样。当图像缩小时候,该方法可以避免波纹出现。当图像放大时,类似于 CV_INTER_NN 方法.. CV_INTER_CUBIC - 立方插值. 函数 cvResize 将图像 src 改变尺寸得到与 dst 同样大小。若设定...
阅读(1976) 评论(0)

[置顶] 【python 第三方包的安装】第三方包下载网站

下载网址 http://www.lfd.uci.edu/~gohlke/pythonlibs/有了这个以后,要用哪个库,再也不用到处找过来找过去了。而且都是编译好的whl文件,简单粗暴!...
阅读(481) 评论(0)

[置顶] 【数据科学】总结 --数据工作的科普

一、数据获取1.爬虫:这个不用多解释了,就是从网页上爬取数据,比如爬取一个京东的三级品类的数据、爬拉勾网的职位信息数据。这个主要是网络编程,细节点主要是header、cookie、get/post请求、失败重试、验证码、重定向等,总之除了把数据从网页上抽取出来就是如何伪装自己是一个“人”在请求而不是机器自动发送的请求。至于破解验证码,简单的ocr能搞定(就是慢),自己写一个图像识别的算法也可以去尝试...
阅读(220) 评论(0)

[置顶] 【excel 函数】常用的Excel函数

函数可以被我们想象成一个盒子,专门负责将输入转换成输出,不同的函数对应不同的输出。清洗处理类:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text关联匹配类:lookup、vlookup、index、match、row、column、offset逻辑运算类:if、and、or、is系列计算统计类:su...
阅读(173) 评论(0)

[置顶] 【mysql 数据迁移】mysql中同一服务器,要从一个数据库里复制一个表到另一个数据库

mysql 同一个服务中,两个数据库A,Bcreate table b.table1 as select * from a.table1...
阅读(302) 评论(0)

[置顶] 【mysql 数据迁移】 mysql 把数据库从一个服务器复制到另一个服务器

1,把sampdb数据库从本地主机复制到远程主机121.121.121.121上的mysql服务上去。 mysqldump –databases sampdb | mysql -h 121.121.121.121 2,如果本地主机无法访问远程mysql服务器但能够通过登录远程主机的办法访问它,就可以通过ssh来远程调用mysql程序。 mysqldump –databases sampdb |...
阅读(1888) 评论(0)

[置顶] 【R语言 数据分析】多重共线性问题

1、什么是多重共线性? 多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。2、多重共线性对回归模型的影响@1、完全共线性下参数估计量不存在 @2、近似共线性下OLS估计量非有效 @3、参数估计量经济含义不合理 @4、变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外 @5、模型的预测功...
阅读(3189) 评论(0)

[置顶] 【Hadoop--04】Hadoop读文件

1、客户端向NameNode发送读取请求2、NameNode返回文件的所有block和这些block所在的DataNodes(包括复制节点)3、客户端直接从DataNode中读取数据,如果该DataNode读取失败(DataNode失效或校验码不对),则从复制节点中读取(如果读取的数据就在本机,则直接读取,否则通过网络读取)...
阅读(523) 评论(0)

[置顶] 【Hadoop--03】HDFS写文件

1.客户端将文件写入本地磁盘的N#x4E34;时文件中2.当临时文件大小达到一个block大小时,HDFS client通知NameNode,申请写入文件3.NameNode在HDFS的文件系统中创建一个文件,并把该block id和要写入的DataNode的列表返回给客户端4.客户端收到这些信息后,将临时文件写入DataNodes4.1 客户端将文件内容写入第一个DataNode(一般以4kb为单...
阅读(412) 评论(0)

[置顶] 【Hadoop--02】Hadoop HDFS是什么?

Hadoop - HDFS简介 Hadoop Distributed File System,分布式文件系统架构Block数据&##x5757;基本存储单位,一般大小为64M(配置大的块主要是因为:1)减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间;2)减少管理块的数据开销,每个块都需要在NameNode上有对应的记录;3)对数据块进行读写,减少建立网络的连接成本)一个大文件...
阅读(224) 评论(0)

[置顶] 【Hadoop--01】Hadoop简介

Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点特别适合写一次,读多次的场景。适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件)不适合 低延时的数据访问 大量的小文件 频繁修改文件(基本就是写1次)Hadoop架构HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计算 Others: 利用YARN的资源管...
阅读(2250) 评论(0)

[置顶] 【DL--07】深度学习基本概念—epochs

epochs 一个epoch是指把所有训练数据完整的过一遍 真的不是很想解释这个词,但是新手问的还挺多的…… 简单说,epochs指的就是训练过程中数据将被“轮”多少次,就这样。...
阅读(2480) 评论(0)

[置顶] 【DL--06】深度学习基本概念—batch

batch这个概念与Keras无关,老实讲不应该出现在这里的,但是因为它频繁出现,而且不了解这个技术的话看函数说明会很头痛,这里还是简单说一下。深度学习的优化算法,说白了就是梯度下降。每次的参数更新有两种方式。第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍,计算量开销大,计算速度慢,不支持在线学习,这称为Batch...
阅读(1915) 评论(0)

[置顶] 【DL--05】深度学习基本概念—函数式模型

函数式模型函数式模型算是本文档比较原创的词汇了,所以这里要说一下在Keras 0.x中,模型其实有两种,一种叫Sequential,称为序贯模型,也就是单输入单输出,一条路通到底,层与层之间只有相邻关系,跨层连接统统没有。这种模型编译速度快,操作上也比较简单。第二种模型称为Graph,即图模型,这个模型支持多输入多输出,层与层之间想怎么连怎么连,但是编译速度慢。可以看到,Sequential其实是G...
阅读(1364) 评论(0)

[置顶] 【DL--04】深度学习基本概念—data_format

data_format这是一个无可奈何的问题,在如何表示一组彩色图片的问题上,Theano和TensorFlow发生了分歧,’th’模式,也即Theano模式会把100张RGB三通道的16×32(高为16宽为32)彩色图表示为下面这种形式(100,3,16,32),Caffe采取的也是这种方式。第0个维度是样本维,代表样本的数目,第1个维度是通道维,代表颜色通道数。后面两个就是高和宽了。这种thea...
阅读(1098) 评论(0)

[置顶] 【DL--03】深度学习基本概念—张量

张量 TensorFlow中的中心数据单位是张量。张量由一组成形为任意数量的数组的原始值组成。张量的等级是其维数。以下是张量的一些例子: 3 # a rank 0 tensor; this is a scalar with shape [] [1. ,2., 3.] # a rank 1 tensor; this is a vector with shape [3] [[1., 2., 3...
阅读(2610) 评论(0)

[置顶] 【DL--02】深度学习基本概念--符号计算

符号计算Keras的底层库使用Theano或TensorFlow,这两个库也称为Keras的后端。无论是Theano还是TensorFlow,都是一个“符号式”的库。因此,这也使得Keras的编程与传统的Python代码有所差别。笼统的说,符号主义的计算首先定义各种变量,然后建立一个“计算图”,计算图规定了各个变量之间的计算关系。建立好的计算图需要编译以确定其内部细节,然而,此时的计算图还是一个“空...
阅读(519) 评论(0)

[置顶] 【DL--01】深度学习 揭开DL的神秘面纱

什么是深度学习 深度学习=深度神经网络+机器学习 人工智能 > 机器学习 > 表示学习 > 深度学习神经元模型 输入信号、加权求和、加偏置、激活函数、输出 全连接层 输入信号、输入层、隐层(多个神经元)、输出层(多个输出,每个对应一个分类)、目标函数(交叉熵) 待求的参数:连接矩阵W、偏置b 训练方法:随机梯度下降,BP算法(后向传播)Python中深度学习实现:Keras 官网...
阅读(3732) 评论(0)

[置顶] 【ML--05】第五课 如何做特征工程和特征选择

一、如何做特征工程? 1.排序特征:基于7W原始数据,对数值特征排序,得到1045维排序特征 2. 离散特征:将排序特征区间化(等值区间化、等量区间化),比如采用等量区间化为1-10,得到1045维离散特征 3. 计数特征:统计每一行中,离散特征1-10的个数,得到10维计数特征 4. 类别特征编码:将93维类别特征用one-hot编码 5. 交叉特征:特征之间两两融合,x+y、x-y、x...
阅读(1750) 评论(0)

[置顶] 【ML--04】第四课 logistic回归

1、什么是逻辑回归?当要预测的y值不是连续的实数(连续变量),而是定性变量(离散变量),例如某个客户是否购买某件商品,这时线性回归模型不能直接作用,我们就需要用到logistic模型。逻辑回归是一种分类的算法,它用给定的输入变量(X)来预测二元的结果(Y)(1/0,是/不是,真/假)。我们一般用虚拟变量来表示二元/类别结果。你可以把逻辑回归看成一种特殊的线性回归,只是因为最后的结果是类别变量,所以我...
阅读(1687) 评论(0)

[置顶] 【python 爬虫】python淘宝爬虫实战(selenum+phontomjs)

1、需求目标 : 进去淘宝页面,搜索耐克关键词,抓取 商品的标题,链接,价格,城市,旺旺号,付款人数,进去第二层,抓取商品的销售量,款号等。2、结果展示 3、源代码# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import time import pandas as pd time1=ti...
阅读(2194) 评论(0)

[置顶] 【hadoop Sqoop】Sqoop从mysql导数据到hdfs

1.下载sqoop安装包wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz2.解压安装包tar -xzvf /sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz3.配置hadoopmv sqoop-1.4.6....
阅读(746) 评论(0)

[置顶] 【Hive Hbase】Hbase与Hive的区别与联系

问题导读:Hive与Hbase的底层存储是什么? hive是产生的原因是什么? habase是为了弥补hadoop的什么缺陷?共同点: 1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别: 2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你...
阅读(1401) 评论(0)

[置顶] 【hadoop Sqoop】数据迁移工具 sqoop 入门

数据迁移工具sqoop入门首先,先简单说明下sqoop是什么,sqoop 即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,sqoop1和sqoop2。 那么为什么选择sqoop呢? 1,高效可控的利用资源,任务并行度,超时时间。 2,数据类型映射与转...
阅读(1739) 评论(0)

[置顶] 【hadoop Sqoop】Sqoop从mysql导数据到hive

1、概述Sqoop是一个实现在关系型数据库和Hive进行数据交换的工具。 主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2、参数hive导入参数   --hive-home...
阅读(339) 评论(0)

[置顶] 【hadoop Sqoop】Sqoop 1.4.6 安装

第一步:下载Sqoop选择 (sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz) http://apache.fayea.com/sqoop/1.4.6/第二步:拷贝至安装目录并解压缩tar zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz第三步:目录名过长,修改为 sqoop-1.4.6mv sqoop-1.4.6....
阅读(190) 评论(0)

[置顶] 【ML--03】 第三课 机器学习基本概念

什么是机器学习 研究如何通过计算的手段,利用经验来改善系统自身的性能 通俗来讲,让代码学着干活● 特征:自变量 ● 标签:因变量学习的种类 ● 有监督学习:提供标签,分类、回归 ● 无监督学习:无标签,聚类 ● 增强学习:也称强化学习,马尔科夫决策过程(Markov Decision Processes,MDP) ● 主动学习:边学习边标注 ● 迁移学习:从一...
阅读(214) 评论(0)

[置顶] 【linux 命令】ll 命令不管用的问题

[root@node1 ~]# find / -name mysql 查看mysql的安装路径 /usr/lib64/mysql /usr/share/mysqlll 命令不管用的问题:$ vim ~/.bashrc alias ll=’ls -l’ #加入此行 ps:加入后肯能无法当场起作用, 执行该句: source ~/.bashrc...
阅读(325) 评论(0)

[置顶] 【大数据 BI】传统BI流程

传统BI流程...
阅读(2240) 评论(0)

[置顶] 【大数据 hadoop】hadoop生态圈

adoop生态圈hadoop提供的功能,利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理核心组件: A、HDFS 分布式文件系统 B、YARN 运算资源调度系统 C、MAPREDUCE 分布式运算编程框架生态圈sprakstormflumehivehbasehadoop在大数据、云计算中的位置和关系云计算是分布式计算、并行计算、网络计算、多核计算、网络存储、虚拟化...
阅读(829) 评论(0)

[置顶] 【ML--02】第二课 线性回归

1、重点归纳 回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)进行预测 用途:预测,判别合理性 例子:利用身高预测体重;利用广告费用预测商品销售额;等等. 线性回归分析:一元线性;多元线性;广义线性 非线性回归分析 困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理2、一元线性回归: 首先计算相关系数确定自变量与因变量是否相关。...
阅读(1727) 评论(0)

[置顶] 【ML--01】第一课 机器学习概述

接下来打算整理下一套机器学习的过程和学习文档分享给大家,共同学习进步~我理解的机器学习(Machine Learing,ML)1、、机器学习是对能通过经验自动改进的计算机算法的研究。从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。机器学习以算法为主,需要一定的数学素养,最终目标将机器学习算法用于大数据挖掘。2、机器学习是人工智能研究的核心内容。它的应用已遍及人工智能的各个分支。数据挖掘...
阅读(1106) 评论(0)

[置顶] 【jquery 走进web】Web进阶 比JS更方便的JQuery

简介 ● JQuery是一个JS库 ● 极大地简化了JS编程 ● JQuery很容易学习引入 ● 下载下来并引入:http://jquery.com/download/ ● 直接引用CDN: http://cdn.bootcss.com/jquery/2.1.4/jquery.min.js语法 (document).ready(function());(documen...
阅读(848) 评论(0)

[置顶] 【js 走进web】Web基础 网页的关节JS

什么是JS HTML中的脚本编程语言:JavaScript,但和Java毛关系没有这都不重要,重要的是: JS决定了如何动态改变HTML元素使用JS 1. 在html中使用js 2. 引入外部.js文件内容 ● document.write() ● 变量var:数值、字符、数组、字典/对象 ● document.getElementById() ● oncl...
阅读(923) 评论(0)

[置顶] 【python 爬虫】Python爬虫技术分享

1、什么是“爬虫”?简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫;爬虫理论上步骤很简单,第一步获取html源码,第二步分析html并拿到数据。但实际操作,老麻烦了~2、用Python写“爬虫”有哪些方便的库常用网络请求库: requests、urllib、urllib2、urllib和urllib2是Python自带模块,requests是第三方库常用解析库和爬虫框架: Be...
阅读(638) 评论(0)

[置顶] 【CSS 走进web】Web基础 网页的血肉CSS

什么是CSS 层叠样式表:Cascading Style Sheets这都不重要,重要的是: CSS决定了如何显示HTML元素基本结构选择器 + 样式(key: value) --------------------------------------------------------------------------------p { color: red; font-size: 20px...
阅读(733) 评论(0)

[置顶] 【大数据 hadoop】大数据框架Hadoop主要模块介绍

本文涉及到的所有模块,都是属于Apache组织,不包括其他第三方的模块。核心模块:Hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的...
阅读(573) 评论(0)

[置顶] 【html 走进web】Web基础 网页的骨骼HTML

什么是HTML 超文本标记语言:Hyper Text Markup Language这都不重要,重要的是: HTML是Web网页的基本组成部分 HTML中定义的元素,决定了网页的内容和结构Python:编程语言,编写程序 HTML:标记语言,像画画一样,画出网页的内容基本结构 --------------------------------------------------------------...
阅读(1472) 评论(0)

[置顶] 【python 走进NLP】NLP WordEmbedding的概念和实现

背景 如何表示词语所包含的语义?苹果?水果?Iphone? 苹果、梨子,这两个词相关吗?语言的表示 符号主义:Bags-of-word,维度高、过于稀疏、缺乏语义、模型简单 分布式表示:Word Embedding,维度低、更为稠密、包含语义、训练复杂Word Embedding 核心思想:语义相关的词语,具有相似的上下文环境,例如, 苹果和梨子 所做的事情:将每个词语训练成,词向量实...
阅读(2273) 评论(0)

[置顶] 【python 走进NLP】 NLP 使用jieba分词处理文本

一、NLP介绍概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话、办公写作、上网浏览希望机器能像人一样去理解,以人类自然语言为载体的文本所包含的信息,并完成一些特定任务内容 中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入……应用 篇章理解、文本摘要、情感分析、知识图谱、文本翻译、问答系统、聊天机器...
阅读(1897) 评论(0)

[置顶] 【R语言 数据探索】实战 Diamonds数据集探索

1.主要内容查看数据 diamonds 截取子集 set.seed(123) diamonds <- diamonds[sample(nrow(diamonds), 1000),]查看概要 summary()、str()探索 价格和克拉的关系:geom_point(),映射颜色和形状价格分布:geom_histogram(),映射填充、position="fill"/"dodge"透明度分布:geo...
阅读(991) 评论(0)

[置顶] 【python mysql】数据库 使用Python操作MySQL

MySQLdb 安装:pip install mysql-python加载包 -------------------------------------------------------------------------------- import MySQLdb import MySQLdb.cursors ------------------------------------------...
阅读(1640) 评论(0)

[置顶] 【web服务器搭建】用MAMP和WAMP搭建Web环境

Web环境 Web服务器:Apache、Nginx,处理Web请求 数据库:MySQL,存储和管理数据 后端:PHP Web服务启动后,就可以在浏览器中访问根目录中的网站项目 MAMP:Mac,Apache,MySQL,PHP,https://www.mamp.info/en/ WAMP:Windows,Apache,MySQL,PHP,http://www.wampserver.com/...
阅读(1290) 评论(0)

[置顶] 【python 文本统计】西游记用字统计

1、数据 xyj.txt,《西游记》的文本,2.2MB 致敬吴承恩大师,4020行(段)2、目标 统计《西游记》中: 1. 共出现了多少个不同的汉字; 2. 每个汉字出现了多少次; 3. 出现得最频繁的汉字有哪些。3、涉及内容: 1. 读文件; 2. 字典的使用; 3. 字典的排序; 4. 写文件4、效果5、源代码# coding:utf8impor...
阅读(1676) 评论(0)

[置顶] 【zookeeper 安装教程】centos 5.8搭建环境

所需软件:VM 虚拟机 centos系统 jdk 1.6或者以上 zookeeper-3.4.6.tar.gz   这里至少需要三台server,不然的话这里zookeeper安装的时候,测试会报至少需要三台server,相关可以查看zookeeper.out(测试环境下)       首先下载jdk的rpm包,分别上传到三个虚拟机上并安装。     1.先查看系统是否存在jdk的相...
阅读(680) 评论(0)

[置顶] 【linux 定时器】crontab 的用法

基本格式 : *  *  *  *  *  command 分  时  日  月  周  命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时0~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令 crontab文件的一些例子: 30 21 * * * /usr/local/etc/r...
阅读(959) 评论(0)

[置顶] 【linux iptable】iptable练习

#查看帮助 iptables -h man iptables列出iptables规则 iptables -L -n 列出iptables规则并显示规则编号 iptables -L -n --line-numbers列出iptables nat表规则(默认是filter表) iptables -L -n -t nat清除默认规则(注意默认是filter表,如果对nat表操作要加-t nat) #清楚所...
阅读(742) 评论(0)

[置顶] 【linux ssh免密码登录】linux 免密码登录

**配置主机之间的免密ssh登陆 vi /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 192.168....
阅读(472) 评论(0)

[置顶] 【linux 软件安装】linux 安装tomcat

安装tomcat1.上传apache-tomcat-7.0.68.tar.gz到Linux上 2.解压tomcat tar -zxvf apache-tomcat-7.0.68.tar.gz -C /usr/local/ 3.启动tomcat /usr/local/apache-tomcat-7.0.68/bin/startup.sh bin/shutdown.sh #停止tomcat...
阅读(716) 评论(0)

[置顶] 【linux 软件安装】nginx 安装

安装nginx tar -zxvf nginx-1.8.1.tar.gz -C /usr/local/src 3.3.编译nginx #进入到nginx源码目录 cd /usr/local/src/nginx-1.8.1#检查安装环境,并指定将来要安装的路径 ./configure --prefix=/usr/local/nginx#缺包报错 ./configure: error: C compil...
阅读(342) 评论(0)

[置顶] 【linux 命令】Linux 下常用压缩文件的解压、压缩

常用压缩包解压命令整理 Linux 后缀为 .tar.gz 格式的文件-解压 命令:tar zxvf XXXXXX.tar.gzLinux 后缀为 .bz2 格式的文件-解压 命令:bzip2 -d XXXXXX.bz2Linux 后缀为 .tar.bz2 格式的文件-解压 命令:tar jxvf XXXXXX.tar.bz2Linux 后缀为 .tar 格式的文件-解压 命令:tar z...
阅读(588) 评论(0)

[置顶] 【linux 命令】进程控制

1.查看用户最近登录情况 last lastlog2.查看硬盘使用情况 df3.查看文件大小 du4.查看内存使用情况 free5.查看文件系统 /proc6.查看日志 ls /var/log/7.查看系统报错日志 tail /var/log/messages8.查看进程 top9.结束进程 kill 1234 kill -9 4333...
阅读(236) 评论(0)

[置顶] 【linux 命令】输入输出重定向及管道

1.新建一个文件 touch a.txt b.txt 2.错误重定向:2> find /etc -name zhaoxing.txt 2> error.txt3.将正确或错误的信息都输入到log.txt中 find /etc -name passwd > /tmp/log.txt 2>&1 find /etc -name passwd &> /tmp/log.txt4.追加>>5.将小...
阅读(413) 评论(0)

[置顶] 【linux 命令】正则表达式

1.cut截取以:分割保留第七段 grep hadoop /etc/passwd | cut -d: -f72.排序 du | sort -n 3.查询不包含hadoop的 grep -v hadoop /etc/passwd4.正则表达包含hadoop grep ‘hadoop’ /etc/passwd5.正则表达(点代表任意一个字符) grep ‘h.*p’ /etc/passwd6....
阅读(415) 评论(0)

[置顶] 【linux 命令】解压和打包

1.gzip压缩 gzip a.txt2.解压 gunzip a.txt.gz gzip -d a.txt.gz3.bzip2压缩 bzip2 a4.解压 bunzip2 a.bz2 bzip2 -d a.bz25.将当前目录的文件打包 tar -cvf bak.tar . 将/etc/password追加文件到bak.tar中(r) tar -rvf bak.tar /etc/p...
阅读(549) 评论(0)

[置顶] 【linux 命令】查找

1.查找可执行的命令: which ls2.查找可执行的命令和帮助的位置: whereis ls3.查找文件(需要更新库:updatedb) locate hadoop.txt4.从某个文件夹开始查找 find / -name “hadooop*” find / -name “hadooop*” -ls5.查找并删除 find / -name “hadooop*” -ok rm {} \...
阅读(347) 评论(0)

[置顶] 【JDK 安装】linux下jdk安装步骤

1.安装JDK *添加执行权限 chmod u+x jdk-6u45-linux-i586.bin *解压 ./jdk-6u45-linux-i586.bin *在/usr目录下创建java目录 mkdir /usr/java *将/soft目录下的解压的jdk1.6.0_45剪切到/usr/java目录...
阅读(280) 评论(0)

[置顶] 【linux 命令】权限

创建a.txt和b.txt文件,将他们设为其拥有者和所在组可写入,但其他以外的人则不可写入: chmod ug+w,o-w a.txt b.txt创建c.txt文件所有人都可以写和执行 chmod a=wx c.txt 或chmod 666 c.txt将/itcast目录下的所有文件与子目录皆设为任何人可读取 chmod -R a+r /itcast将/itcast目录下的所有文件与子目录的拥...
阅读(174) 评论(0)

[置顶] 【linux 命令】用户和组

添加一个tom用户,设置它属于users组,并添加注释信息 分步完成:useradd tom usermod -g users tom usermod -c “hr tom” tom 一步完成:useradd -g users -c “hr tom” tom设置tom用户的密码 passwd tom修改tom用户的登陆名为tomcat usermo...
阅读(1069) 评论(0)

[置顶] 【linux 命令】系统命令

1.查看主机名 hostname2.修改主机名(重启后无效) hostname hadoop3.修改主机名(重启后永久生效) vi /ect/sysconfig/network4.修改IP(重启后无效) ifconfig eth0 192.168.12.225.修改IP(重启后永久生效) vi /etc/sysconfig/network-scripts/ifcfg-eth06.查看系统信...
阅读(306) 评论(0)

[置顶] 【linux 命令】文件相关命令

1.进入到用户根目录 cd ~ 或者 cd cd ~hadoop 回到原来路径 cd -2.查看文件详情 stat a.txt3.移动 mv a.txt /ect/ 改名 mv b.txt a.txt 移动并改名 mv a.txt ../b.txt4拷贝并改名 cp a.txt /etc/b.txt5.vi撤销修改 ctrl + u (undo) 恢复 ctrl + r...
阅读(307) 评论(0)

[置顶] 【linux 常用命令】linux命令大全

说明:安装linux时,创建一个itcast用户,然后使用root用户登陆系统1.进入到用户根目录 cd ~ 或 cd2.查看当前所在目录 pwd3.进入到itcast用户根目录 cd ~itcast4.返回到原来目录 cd -5.返回到上一级目录 cd ..6.查看itcast用户根目录下的所有文件 ls -la7.在根目录下创建一个itcast的文件夹 mkdir /itcast8...
阅读(204) 评论(0)

[置顶] 【VMware Workstation】VMware 所有版本永久许可证激活密钥

注:VMware v11.x、12.x 系列版本仅支持64位系统,如果是32位系统请用VMware v10.x版本VMware 所有版本永久许可证激活密钥:VMware Workstation v12 for Windows 5A02H-AU243-TZJ49-GTC7K-3C61N VF5XA-FNDDJ-085GZ-4NXZ9-N20E6 UC5MR-8NE16-H81WY-R7QGV...
阅读(5176) 评论(0)

[置顶] 【vmware 服务器安装】虚拟机centos6.5安装步骤

步骤一:安装node1,配置node1vi /etc/sysconfig/network-scripts/ifcfg-eth0ONBOOT=yes #是否开机启用修改完成之后reboot步骤二:克隆node2,node3出来步骤三:配置 node2,node3 1、vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=node22,解决克隆后e...
阅读(766) 评论(0)

[置顶] 【matlab GUI】GUI listbox的用法

A= get(handles.listbox1,'value'); %A的值代表我们选的是第几个选项 switch A case 1 % 当我们选的是1 时,给变量B赋个什么样的值,依次类推,最后B将是你想要的结果 I=imread('1.jpg'); I0=rgb2gray(I); axes(handles.axes2) BW1=edge(I0,'Roberts...
阅读(2982) 评论(0)

[置顶] 【matlab 图像处理】五种边缘检测算法比较

代码实现I=imread('1.jpg'); I0=rgb2gray(I); subplot(231); imshow(I);BW1=edge(I0,'Roberts',0.16); subplot(232); imshow(BW1); title('Robert算子边缘检测') BW2=edge(I0,'Sobel',0.16); subplot(233); imshow(BW2); title(...
阅读(1551) 评论(0)

[置顶] 【python 淘宝爬虫】python 淘宝店铺名称,旺旺,销售量 抓取

一、需求分析 抓取淘宝店铺名称,旺旺,销售量 二、效果展示 三、实现源代码# encoding: utf-8import sys reload(sys) sys.setdefaultencoding('utf-8')import pandas as pd import time import re time1=time.time()import requestsseller=[] shop=[]...
阅读(1694) 评论(0)

[置顶] 【python 淘宝爬虫】淘宝信誉分抓取

一、需求分析 输入旺旺号,获取淘宝卖家的信用分二、思路 淘宝需要模拟登陆,我们这里抓不到,因此为了绕过登陆,发现了淘一兔,我们可以通过这里,得到淘宝卖家的信用分,结果是一样的。 http://www.taoyizhu.com/输入旺旺号,需要点击查询,等待几秒,得到查询结果,这里我们用selienum 来做三、实现源代码(抓取不能太快,否则抓不到)# encoding: utf-8from s...
阅读(3111) 评论(0)

[置顶] 【数据科学】当代数据科学家需要掌握的技能

道路通往星辰大海,纵有荆棘不言孤单~...
阅读(1197) 评论(0)

[置顶] 【python 爬虫】selenium+phontomjs 用法

程序1:输入病员号,查询病员信息# encoding: utf-8from selenium import webdriver import sys reload(sys) sys.setdefaultencoding('utf-8') from lxml import etree import pandas as pd import time time1=time.time() driver=we...
阅读(794) 评论(0)

[置顶] 【spark 词频统计】spark单词进行计数升级版

下面的代码对文件里的单词进行计数,筛选出现过10次的单词,然后对这些单词中的每个字符出现的次数进行计数。最后,通过collect action操作触发job的执行。这些转换中有两个是stage边界(它们有宽依赖)。代码中的两个reduceByKey转换是生成3个stage的原因:val words = sc.textFile("textFilePath").flatMap(_.split(' '))...
阅读(858) 评论(0)

[置顶] 【R语言 可视化】R语言画图增加次要刻度线

dose<-c(20,30,40,45,60) drugA<-c(16,20,27,40,60) plot(dose,drugA,xlim = c(0,70)) library(Hmisc) minor.tick(nx=5,ny=5)...
阅读(1420) 评论(0)

[置顶] 【python 数据可视化 】饼图,箱线图,条形图,直方图,折线图,散点图

# coding:UTF-8 import matplotlib.pyplot as plt import numpy as np import pandas as pd import matplotlib.dates as mdates##画直线 plt.plot([1,2,3,4,5],[1,2,3,4,5]) plt.show()##numpy 导入数据,切片,索引 a=np.loadtxt(...
阅读(2345) 评论(0)

[置顶] 【R语言 社交网络】R语言关系网络图+ PageRank算法实现

例子1: library(plyr)set.seed(10) rm(list=ls()) library(igraph) g<-random.graph.game(n=10,p.or.m=1/3,directed=TRUE) com = walktrap.community(g, steps = 6) V(g)$sg = com$membership + 1 V(g)$color = rainbow...
阅读(4162) 评论(0)

[置顶] 【spark 学习笔记】Spark学习笔记精华(1)

好记性不如烂笔头,顺便就开始用手机练习打字了,也分享给感兴趣的朋友学习下。 1.take可以查看RDD中前面几个元素,而且代价很小。rdd.take(5)2.可以用takeSample对数据进行采样,它的第一个参数表示是否允许重复采样。rdd.takeSample(true,3)3.top返回数据集中按给定ordering方式排序的最大的k条记录,许多场景都要用到它,比如对每条记录打分之后,检查得分...
阅读(357) 评论(0)

[置顶] 【spark RDD】RDD编程

%spark/*创建RDD*/ val data0=sc.parallelize(Array(1,2,3,3)) /*************************************对一个数据的RDD进行转换操作************************************************/ /*map*/ val data1=data0.map(x=>x+1)//每个元素...
阅读(432) 评论(0)

[置顶] 【spark 数据框】Spark数据框dataFrame

%spark /*DataFrame*/ val data=sc.parallelize(List(("Alice",21),("Bob",24))) val people=data.toDF("name","age") people.show()/*增加一列*/ val df1=(1 to 5).map(i=>(i,i*2)).toDF("single","double") df1.show()...
阅读(818) 评论(0)

[置顶] 【R 可视化】R 画关系网络图

rm(list=ls()) library(igraph) #1.用igraph创建图表 g<- graph(c(1,2, 1,8,1,9,1,10,2,4,2,5,2,6,2,3,3,7,3,11,3,12,3,1), directed=T)com = walktrap.community(g, steps = 6) V(g)$sg = com$membership + 1 V(g)$color...
阅读(1392) 评论(0)

[置顶] 【spark 累加器】spark 累加器求1+2+3+4+5+......+100

%spark val accum = sc.accumulator(0) val num=1 to 100 sc.parallelize(num).foreach(x => accum += x) val total_sum=accum.value println(total_sum)accum: org.apache.spark.Accumulator[Int] = 0 num: scala.co...
阅读(693) 评论(0)

[置顶] 【R语言 函数】R语言聚合函数总结

> rm(list=ls()) > > > # 聚合函数学习 > data(iris) > ##tapply 分组求和 > (aa > ##rowsum 分组求和...
阅读(1295) 评论(0)

[置顶] 【R语言 算法设计】信用贷款余额计算

#####设置 rm(list = ls()) options(scipen =20)########################step0:读取数据########################## data<-read.table("E:\\贷款余额\\信用贷款.txt",sep="\t",header=T) #########################step1:数据处理#####...
阅读(1107) 评论(0)

[置顶] 【算法 机器学习】R语言做朴素贝叶斯和决策树算法

data:2016-02-19 author:laidefa########################朴素贝叶斯################################## ###目标:利用朴素贝叶斯预测苹果是好的坏的 rm(list=ls()) gc() library(plyr) library(reshape2)#训练集 train.apple<-data.frame(size=...
阅读(1098) 评论(0)

[置顶] 【R语言 可视化】R语言 ggplot2 一张图画多个饼

author:laidefa date:2016-01-18 椰丝,终于画好了,要画好多个饼不容易啊 ,画都画饱了。 # data:2016-1-18 # author:laidefa rm(list=ls()) gc() a=c(15,25,40,12,8) b=c(5,18,12,45,10) c=c(7,24,13,36,20) d=c(3,27,40,21,9) type=c("A",...
阅读(1474) 评论(0)

[置顶] 【R语言 爬虫】用R爬虫,爬取杭州安居客九堡租房信息

在当今互联网时代,数据要会挖,得先学会爬!爬的过程是痛苦的,因为在计算机程序开发领域,网络爬虫的开发是一个很专业的方向,技术门槛比较高,它所要求的综合知识很多,相信很多同学都望而却步了。别急,说话说到后面往往都有但是滴。 但是该领域的几个非常方便的工具已经被集成到R的一些第三方包中了,所以我们完全可以基于R用一种很容易实现的方式来实现互联网数据的抓取,让我们可以直接去挖掘互联网这座金矿。...
阅读(916) 评论(0)

[置顶] 【R语言 可视化】我教你15分钟学会用R画各种统计图

data:2015-10-17 author:laidefa 有同学让我开始教他R语言,就先分享点东西把。学习R的曲线是陡峭的,有人教你才是正道,没人教你你至少要安静学习三个月甚至远远不止,才会驾轻熟重,才能养成那种R编程的感觉和习惯,这个过程是痛苦枯燥无味的。我以前是没人教的,自学成才(啧啧啧…….)。自己看书你要看到什么时候,还有你能静下心来坚持看下去么,看我这个简单的教程吧,立马学会,废话...
阅读(2141) 评论(0)

[置顶] 【算法 机器学习】MATLAB、R、python三种编程语言实现简单线性回归算法比较

data:2015-10-04 author:laidefa 今天看到机器学习中的回归,一个简单的线性回归原理想想无非就是利用最小二乘法进行拟合。想着自己去实现下算法,体验以下不同的编程语言实现算法有什么难易程度,亲自编完实现之后,心中方有感觉,得知结果python最佳。下面还是贴上代码把,仅供欣赏。1、matlab实现最小二乘法算法%data:2015-10-04 %author:la...
阅读(1361) 评论(0)

[置顶] 【excel VBA】中英文分割

'中文 Function SplitStringChs(TheString) Dim n, Chs For n = 1 To Len(TheString) If Asc(Mid(TheString, n, 1)) < 0 Then Chs = Chs & Mid(TheString, n, 1) End If N...
阅读(451) 评论(0)

[置顶] 【matlab 圆周率计算】matlab 求圆周率的两种算法实现比较

%author:laidefa %data:2014-09-19 %丘德诺夫斯基公式求圆周率 function mpi=qdnfsj(m) i=m; s=13591409; for n=1:i A=(factorial(6*n)(13591409+54514013*n))/(factorial(3*n)*factorial(n)^3(-640320)^(3*n));...
阅读(868) 评论(0)

[置顶] 【excel VBA】excel 计算字符串相似度

Private Function min(one As Integer, two As Integer, three As Integer) min = one If (two < min) Then min = two End If If (three < min) Then min = three End I...
阅读(926) 评论(0)

[置顶] 【excel VBA】合并当前工作薄下多个sheet表

Sub 合并当前工作簿下的所有工作表() Application.ScreenUpdating = False For j = 1 To Sheets.Count If Sheets(j).Name <> ActiveSheet.Name Then X = Range("A65536").End(xlUp).Row + 1 Sheets(j).UsedRange.C...
阅读(948) 评论(2)

[置顶] 【excel VBA】合并一个文件夹下多张excel表数据,前提字段一样

Sub HuiZong() Dim myfile, mypath, wb '声明变量 Application.ScreenUpdating = False '关闭屏幕更新 Sheet1.UsedRange.Offset(1, 0).Clear '清除除表头之外的所有内容 mypath = ThisWorkbook.Path '找到当前工作簿的路径...
阅读(1229) 评论(2)

[置顶] 【python 下载器】python下载电影&视频&电视剧

输入视频链接,python后台下载视频# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import requests import re import time time1=time.time() link='http://v3.365yg.com/a0ee2d891f16098d3098f8f1436...
阅读(1743) 评论(0)

[置顶] 【python 视频爬虫】python下载头条视频

一、需求分析 抓取今日头条短视频视频链接: http://video.eastday.com/a/170612170956054127565.html二、代码实现# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import requests import re import time time1=t...
阅读(2288) 评论(0)

[置顶] 【python 可视化】python利用matplotlib库绘制散点图案例

import pandas as pd import numpy as np import matplotlib.pyplot as plt import random N=50 x=np.random.randn(N) y=np.random.randn(N) plt.scatter(x,y,s=50,c='b',marker='o',alpha=0.5) plt.savefig("C:/a3.j...
阅读(1224) 评论(0)

[置顶] 【R 语言 可视化】在直方图上面添加密度曲线

rm(list=ls()) gc() set.seed(1234) score <- rnorm(n = 1000, m = 80, sd = 20) hist(score, freq=FALSE, xlab="Score", main="Distribution of score", col="lightgreen", xlim=c(0,...
阅读(2794) 评论(0)

[置顶] 【python 可视化】python利用matplotlib库绘制饼图案例

import matplotlib.pyplot as plt sizes = [15, 30, 45, 10] labels = 'Frogs', 'Hogs', 'Dogs', 'Logs' colors = ['yellowgreen', 'gold', 'lightskyblue', 'lightcoral'] explode = (0, 0.1, 0, 0) plt.pie(sizes,...
阅读(1438) 评论(0)

[置顶] 【python 可视化】数据透视表的用法及画饼图

# encoding: utf-8###################设置utf-8编码############## import sys reload(sys) sys.setdefaultencoding('utf-8')####################导入包######## import pandas as pd import numpy as np import matplotli...
阅读(2156) 评论(0)

[置顶] 【matlab dijkstra单源最短路径算法】dijkstra单源最短路径算法实现

一、主函数function [min,path]=dijkstra(w,start,terminal) %%%参数说明 %%%%%%输入 % w:网络各点的邻接矩阵 % start:起点 % start:终点 %%%%%输出 % min:最短距离 % path:最短路径n=size(w,1); label(start)=0; f(start)=start; for i=1:n if i~=st...
阅读(1411) 评论(0)

[置顶] 【matlab 可视化】MATLAB 画最短路径网络图

clc,clear a=zeros(7); a(1,2)=4;a(1,3)=2; a(2,3)=3;a(2,4)=2;a(2,5)=6; a(3,4)=5;a(3,6)=4; a(4,5)=2;a(4,6)=7; a(5,6)=4;a(5,7)=8; a(6,7)=3;% %构建稀疏矩阵 b=sparse(a); % 画网络图 h=view(biograph(b,[],'showArrows','o...
阅读(1358) 评论(0)

[置顶] 【R 数据科学】R语言进行数据科学整理最有用的包大全

一、数据科学工作流程1.1 数据导入 1.2 数据整理 1.3 反复理解数据 1.4 数据可视化 1.5 数据转换 1.6 统计建模 1.7 作出推断(比如预测) 1.8 沟通交流 1.9 自动化分析 2.0 程序开发二、每个步骤最有用的一些R包1、数据导入以下R包主要用于数据导入和保存数据feather:一种快速,轻量级的文件格式。在R和python上都可使用 readr:实现...
阅读(1599) 评论(1)

[置顶] 【R语言 数据处理】R语言数据变形melt用法

1、需要安装的包install.packages("reshape2") install.packages("knitr")2、加载包rm(list=ls()) gc() library(reshape2) library(knitr)3、创建数据集data<-data.frame(Name = c("苹果","谷歌","脸书","亚马逊","腾讯"),Company = c("Apple","Go...
阅读(3113) 评论(0)

[置顶] 【R语言 可视化】R语言画雷达图

1、安装插件 github网址: https://github.com/ricardo-bion/ggradardevtools::install_github("ricardo-bion/ggradar") install.packages("knitr")2、效果图3、源代码rm(list=ls()) gc() library(ggradar) mydata<-matrix(runif(40...
阅读(5218) 评论(0)

[置顶] 【python 百度指数抓取】python 模拟登陆百度指数,图像识别百度指数

一、算法思想 目的奔着去抓取百度指数的搜索指数,搜索指数的爬虫不像是其他爬虫,难度系数很高,分析之后发现是图片,坑爹的狠,想了下,由于之前做过身份证号码识别,验证码识别之类,豁然开朗,不就是图像识别麽,图像识别我不怕你,于是就有了思路,果然有异曲同工之妙,最后成功被我攻破了,大致思路如下:1、首先得模拟登陆百度账号(用selenium+PhantomJS模拟登陆百度,获取cookie)...
阅读(5611) 评论(4)

[置顶] 【python 可视化】python 一行代码画爱心图

一、效果二、源代码print'\n'.join([''.join([('LoveDaLin'[(x-y)%8]if((x*0.05)**2+(y*0.1)**2-1)**3-(x*0.05)**2*(y*0.1)**3<=0 else' ')for x in range(-30,30)])for y in range(15,-15,-1)])...
阅读(4436) 评论(0)

[置顶] 【python 图像识别】图像识别从菜鸟走向大神系列1

一、安装配置(python2.7)1.pip install pytesseract 2、pip install pyocr 3、pip install pillow 4、安装tesseract-ocr:http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe,安装在C:\Pro...
阅读(8554) 评论(0)

[置顶] 【matlab 爬虫】用matlab做网络爬虫入门系列1

一、需求分析 抓取内容: 二、实现代码clc,clear %% % 设置不用科学计数法显示数据 format short g % % % 读取源代码 sourcefile=urlread('file:///D:/Program%20Files/MATLAB/R2013a/gui3/sheet.html'); % 正则表达式获取第一行数据存为data1 expr1='(.*?)<...
阅读(2698) 评论(0)

[置顶] 【matlab 播放音乐】教你如何用matlab播放音乐

1、代码片段1 [fname,pname]=uigetfile('.wav','选择原始声音文件'); file=[pname,fname]; fs = 8000; [x,fs] = wavread(file); sound(x,fs); 2、代码片段2 [y,Fs,bits] = wavread('jinyong.wav'); %获取音乐数据 ao = analogoutput('winsou...
阅读(1344) 评论(0)

[置顶] 【python 调用储存过程】python 执行储存过程

# -*- coding:utf-8 -*-import sys reload(sys) sys.setdefaultencoding('utf-8') import pymysql conn=pymysql.connect(host='localhost',port=3306,user='root',password='12345',db='cgjr', charset='utf8') # 创建游...
阅读(2545) 评论(0)

[置顶] 【mysql 存储过程】应用存储过程的优点与缺点

总结下使用存储过程的优缺点 一、存储过程优点 存储过程是一组预先创建并用指定的名称存储在数据库服务器上的 SQL 语句,将使用比较频繁或者比较复杂的操作,预先用 SQL 语句写好并存储起来,以后当需要数据库提供相同的服务时,只需再次执行该存储过程。1.具有更好的性能存储过程是预编译的,只在创建时进行编译,以后每次执行存储过程都不需再重新编译,而一般 SQL 语句每执行一次就编译一次,因此使用存储...
阅读(725) 评论(0)

[置顶] 【mysql 存储过程】存储过程之流程控制语句

-- 1、IF语句 -- 创建存储过程,判断两个输入参数哪一个大 -- 输入的第一个参数对应p1,第二个对应p2,@ax用来接收输出变量p3; 如果p1>p2,输出1;如果p1=p2,输出2;其他情况,输出3。 -- -- 定义存储过程 DELIMITER $$ CREATE PROCEDURE difference(IN p1 INTEGER,IN p2 INTEGER,OUT p3 INTEG...
阅读(886) 评论(0)

[置顶] 【mysql 事件】mysql事件的开启和调用

1、检测事件是否开启 show variables like 'event_scheduler';2.开启事件 set global event_scheduler = on;3.创建一个存储过程delimiter // create procedure test() begin update project set create_time = now(); end;4.创建一个事件create e...
阅读(3620) 评论(0)

[置顶] 【mysql 存储过程】数据库从菜鸟走向大神系列3

1、创建数据库create database cgjr2. 建表我们新建一张学生表和教师表如下:CREATE TABLE student( id INT NOT NULL AUTO_INCREMENT, first_name VARCHAR(10) NOT NULL, last_name VARCHAR(10) NOT NULL, sex VARCHAR(5) NOT NULL,...
阅读(2388) 评论(0)

[置顶] 【mysql 密码重置开启远程连接终极版】mysql 安装密码设置开启远程连接

my.ini 加入 skip-grant-tables进入 mysql -u root -pupdate MySQL.user set authentication_string=password('123456') where user='root' ;my.ini 关闭 #skip-grant-tables重启net stop mysql net start mysqlmysql -u root...
阅读(1185) 评论(0)

[置顶] 【mysql 命令】Linux mysql 最常用的命令

一、连接MYSQL。 格式: mysql -h主机地址 -u用户名 -p用户密码1、连接到本机上的MYSQL。 # mysql -u root -p 回车后提示你输密码,注意用户名前可以有空格也可以没有空格,但是密码前必须没有空格,否则让你重新输入密码。 如果刚安装好MYSQL,超级用户root是没有密码的,故直接回车即可进入到MYSQL中了,MYSQL的提示符是: mysql>2、连接到远...
阅读(1560) 评论(0)

[置顶] 【mysql linux安装】Mysql centos安装教程

步骤:1)查看CentOS自带的mysql输入 rpm -qa | grep mysql2)将自带的mysql卸载3)上传Mysql到linux4)安装mysql的依赖(选做)yum -y install libaio.so.1 libgcc_s.so.1 libstdc++.so.6yum update libstdc++-4.4.7-4.el6.x86_645)解压Mysql到/usr/loc...
阅读(1977) 评论(0)

[置顶] 【mysql 修炼之路】如何从菜鸟成为mysql 大神?

首先MySQL大多是跑在Linux环境上的,所以我们需要学习一下Linux的知识,最基础的需要了解: ■ Linux的安装及目录结构意义 ■ 常用的Linux命令,大概20多个 ■ 网络基本知识,进一步了解网关及路由相关概念,dhcp ■ 撑握一定的Linux网络服务,如果LAMP结构,dns, ftp 等其...
阅读(1358) 评论(0)

[置顶] 【python DataFrame】Pandas里面的屠龙宝刀DataFrame

# encoding: utf-8 from __future__ import division import sys reload(sys) sys.setdefaultencoding('utf-8') import numpy as np import pandas as pd # 1.创建DataFrame的几种方式 #######1.1纯字典创建 students={'names':['...
阅读(2605) 评论(0)

[置顶] 【mysql 远程连接】关于远程连接服务器MySql的一些解决方案

在我们拿到一个新的服务器时,往往是系统自动生成的密码,不方便调试和远程维护。这里做第一步操作,修改mysql密码;mysql -u 要修改的用户名 -penter 密码mysql->use mysql;/*切换数据库(非root用户可无视)*/mysql->select user,password,host from user;/*查看用户组信息(包含密码)*/mysql->SET PASSWORD...
阅读(1211) 评论(0)

[置顶] 【混得好的都有这 5 种特质】优秀的年轻人都有这 5 大特质

第一,有好奇心,能够主动学习新事物、新知识和新技能。今天不太谦虚,我把自己当做正例,然后再说一个负例。我有个前同事,理论基础挺好,但每次都是把自己的工作做完就下班了。他在这家公司呆了一年多,但对网上的新技术、新工具都不去了解。所以他非常依赖别人。当他想要实现一个功能,他就需要有人帮他做后半部分,因为他自己只能做前半部分——如果是有好奇心的人,前端、后端、算法都去掌握、至少有所了解的话,那么很多调试分...
阅读(4548) 评论(0)

[置顶] 【mysql 用户权限管理】mysql 权限管理学习

概述 用户权限管理主要有以下作用: 1. 可以限制用户访问哪些库、哪些表 2. 可以限制用户对哪些表执行SELECT、CREATE、DELETE、DELETE、ALTER等操作 3. 可以限制用户登录的IP或域名 4. 可以限制用户自己的权限是否可以授权给别的用户一、用户授权mysql> grant all privileges on *.* to 'yangxin'@'%' id...
阅读(1049) 评论(0)

[置顶] 【mysql 使用错误解决】this is incompatible with sql_mode=only_full_group_by

使用mysql的时候遇到的一些错误1、Err1055,出现这个问题往往是在执行sql语句时候,在最后一行会出现这个问题。[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column 'information_schema.PROFILING.SEQ'...
阅读(1191) 评论(0)

[置顶] 【mysql 连接错误解决】mysql 登录错误解决

这几天用空密码登录mysql后,然后修改mysql默认密码,使用mysql表出现过这个问题,提示:ERROR 1044 (42000): Access denied for user ”@’localhost’ to database ‘mysql’。网上找了一些方法,终于搞定了。后来解决成功发现是因为mysql数据库的user表里,存在用户名为空的账户即匿名账户,导致登录的时候是虽然用的是root...
阅读(1194) 评论(0)

[置顶] 【mysql 安装教程】MySQL5.7.18-下载安装教程

1、如何下载mysql 打开mysql官网下载链接网址: https://dev.mysql.com/downloads/选中第一个,点击download 下载进去之后,选择对应的系统和电脑版本(在这里,我选择的是Window系统64位的下载) 点击 download,选中 No thanks, just start my download. 下载完成。2、如何安装mysql从官网上下载...
阅读(9822) 评论(1)

[置顶] 【mysql 重置密码】快速重置mysql密码

如果你忘记了mysql密码几乎是没有什么好办法可以直接修改密码了,但我们可以在my.ini把加上skip-grant-tables,然后重启mysql就不需要密码了,这时我们再修改root密码,最后再把skip-grant-tables删除重启即可。首先,很荣幸你找到了这篇文章。。。 如果你忘记了mysql的密码不妨试试以下这个方法。 1、打开my.ini 代码如下 复制代码 [m...
阅读(2801) 评论(0)

[置顶] 【mysql 存储过程】数据库从菜鸟走向大神系列2

MySQL存储过程的基本函数 (1).字符串类 CHARSET(str) //返回字串字符集 CONCAT (string2 [,... ]) //连接字串 INSTR (string ,substring ) //返回substring首次在string中出现的位置,不存在返回0 LCASE (string2 ) //转换成小写 LEFT (string2 ,length ) //从str...
阅读(2665) 评论(0)

[置顶] 【mysql 存储过程】数据库从菜鸟走向大神系列1

1. 关于MySQL的存储过程 存储过程是数据库存储的一个重要的功能,但是MySQL在5.0以前并不支持存储过程,这使得MySQL在应用上大打折扣。好在MySQL 5.0终于开始已经支持存储过程,这样即可以大大提高数据库的处理速度,同时也可以提高数据库编程的灵活性。2. MySQL存储过程的创建 (1). 格式 MySQL存储过程创建的格式:CREATE PROCEDURE 过程名 ([过程参数[,...
阅读(2573) 评论(0)

[置顶] 【R语言爬虫】R语言提交get请求抓取城城理财数据

一、需求分析 抓取城城理财数据。 抓取url: https://www.cclc.co/debts/lctz_all_all二、实现源代码rm(list=ls()) library(XML) library(RCurl)url='https://www.cclc.co/debts/lctz_all_all' myheader <- c( "User-Agent"="Mozilla/5.0...
阅读(2285) 评论(0)

[置顶] 【R语言爬虫】R语言提交post请求抓取盈盈理财数据

一、需求分析 抓取盈盈理财数据 抓取url: https://licai.yingyinglicai.com/product/list.htm二、效果 三、实现源代码rm(list=ls()) library(XML) library(RCurl) k=1 url='https://licai.yingyinglicai.com/product/list.htm' web<-postForm...
阅读(4144) 评论(0)

[置顶] 【R语言数据导出txt】 write.table 函数用法

1)write.table函数语法:write.table (x, file ="", sep ="", row.names =TRUE, col.names =TRUE, quote =TRUE)参数说明: x:需要导出的数据 file:导出的文件路径 sep:分隔符,默认为空格(” “),也就是以空格为分割列 row.names:是否导出行序号,默认为TRUE,也就是导出行序号 col...
阅读(2577) 评论(0)

[置顶] 【python PDF解析】python 读取PDF文件内容

一、问题描述 利用python,去读取pdf文本内容。 二、效果 二、实现源代码# coding=utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import time time1=time.time() import os.path from pdfminer.pdfparser import PDFParser,PD...
阅读(10178) 评论(11)

[置顶] 【R语言 数据分析】R语言获取Excel数据

一、问题描述:我们的数据放在Excel里面,数据格式后缀为.xls或者.xlsx。如何获取Excel中的数据呢?二、解决方案:R语言提供 xlsx 包 ,可以获取Excel中的数据。三、代码实现:#安装xlsx包if(!suppressWarnings(require(xlsx))){install.packages(“xlsx”)require(xlsx)}#1数据格式为.xlsexcel_dat...
阅读(3992) 评论(0)

[置顶] 【R语言 数据挖掘】R语言如何做关联规则?

一、前言 提到数据挖掘,我们第一反应就是之前听到的啤酒和尿不湿的故事,该故事就是典型的数据挖掘中的关联规则。购物篮分析区别于传统的线性回归的主要区别为,关联分析针对离散数据;下面我们利用R语言的arules包及Apriori算法对商品交易数据进行关联规则挖掘,二、常见关联规则: 关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】 支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋,需设定域值,...
阅读(2665) 评论(0)

[置顶] 【R语言可视化】ggplot2 自定义柱状图

rm(list=ls()) gc() library(ggplot2) # 我们拿到这样的数据 name <- c("多","中","少","中","少") data <- data.frame(name) # 转化为数据框p2 <- ggplot(data,aes(x=name)) + geom_bar(width=0.7,fill=rgb(50,163,221,maxColorValue=...
阅读(3058) 评论(0)

[置顶] 【R语言可视化ggplot2入门教程1】一个完整的绘图流程

一、主要内容 1、首先简单画一个图出来 2、做一些等价调整 3、接受另一种类型的数据 4、简单的参数调整 5、纵坐标使用百分比表示 6、更改横纵轴坐标、标题等 7、在图中增加标注的文字 调整字体、背景等,达成excel的效果 8、保存图形 首先简单画一个图出来 二、ggplot2 开始入门# 我们拿到这样的数据 name <- c("多","中",...
阅读(4212) 评论(0)

[置顶] 【R语言数据类型】深入了解 向量、矩阵、数据框、列表

R语言数据类型有向量、矩阵、数据框、列表。下面我们来深入了解下: vector 的划分 R中的vector分为两类,atomic和list,二者的区别在于,前者元素类型必须相同,后者可以不同。前者的代表是向量和矩阵,后者的代表是list和数据框。 创建向量、矩阵、数据框、列表# atomic a <- 1:5 b <- letters[1:5] c <- 1:10 mat <- matrix(c,...
阅读(2882) 评论(0)

[置顶] 【go语言发送电子邮件】go语言版发送电子邮件

一、实现功能 用go语言发送一封邮件二、实现源代码package main import ( "net/smtp" "fmt" "strings" )/* * user : example@example.com login smtp server user * password: xxxxx login smtp server password * host:...
阅读(2317) 评论(0)

[置顶] 【go语言计算两个经纬度距离】根据经纬度计算两点之间距离

一、需求分析: 输入两个经纬度,计算它们之间的距离 lat1,lng1 := 32.060255,118.796877 lat2,lng2 := 39.904211,116.407395二、计算公式 //C = sin(LatA*Pi/180)*sin(LatB*Pi/180) + cos(LatA*Pi/180)*cos(LatB*Pi/180)*cos((MLonA-MLonB)*Pi/180...
阅读(2945) 评论(0)

[置顶] 【go语言读取mysql】go语言连接mysql,并且查询出结果

一、需求分析 go语言 连上mysql,并且从mysql中读取数据二、实现效果"D:\Program Files (x86)\JetBrains\Gogland 171.3780.106\bin\runnerw.exe" D:/Go\bin\go.exe run D:/Go/code/src/awesomeProject/go_mysql.go 链接数据库成功...........已经打开 192...
阅读(4766) 评论(0)

[置顶] 【go语言计算年龄生肖星座】go语言根据出生日期 计算年龄,所属星座,生肖

一、需求分析 go语言根据出生日期 计算年龄,所属星座,生肖二、运行效果"D:\Program Files (x86)\JetBrains\Gogland 171.3780.106\bin\runnerw.exe" D:/Go\bin\go.exe run D:/Go/code/src/awesomeProject/age_calculate.go 24 狮子座 鸡Process finished...
阅读(2338) 评论(0)

[置顶] 【go语言爬虫】go语言高性能抓取手机号码归属地、所属运营商

一、需求分析 根据手机号码获取手机号码的归属地和所属运营商类型 类似:四川 18683339513 乐山 614000 0833 中国联通二、运行效果 三、实现源代码package main//网址:https://github.com/M2shad0w/phone-go//安装包:go get github.com/M2shad0w/phone-go import ( "fmt"...
阅读(2292) 评论(0)

[置顶] 【go语言爬虫】go语言爬取豆瓣电影top250

一、需求分析 用go语言抓取 豆瓣电影top250 抓取url: https://movie.douban.com/top250抓取字段:电影名称、评分、评价人数二、运行: 正在抓取第0页…… 肖申克的救赎 9.6 824764人 这个杀手不太冷 9.4 791399人 霸王别姬 9.5 589028人 阿甘正传 9.4 678850人 美丽人生 9.5 394009人 千与千寻...
阅读(4539) 评论(7)

[置顶] 【python 新浪微博爬虫】python 爬取新浪微博24小时热门话题top500

一、需求分析 模拟登陆新浪微博,爬取新浪微博的热门话题版块的24小时内的前TOP500的话题名称、该话题的阅读数、讨论数、粉丝数、话题主持人,以及对应话题主持人的关注数、粉丝数和微博数。二、开发语言 python2.7三、需要导入模块 import requests import json import base64 import re import time import pand...
阅读(7915) 评论(6)

[置顶] 【python 图像识别】python 身份证号码识别

一、需求分析 识别身份证图片上的身份证号码。 如: 二、python实现源代码 # !/usr/bin/python #-*-coding:utf-8-*- import sys reload(sys) sys.setdefaultencoding('utf-8')import time time1 = time.time() from PIL import Image import pyte...
阅读(6610) 评论(0)

[置顶] 【R语言可视化】R语言画爱心图

数学系也可以很浪漫~~rm(list=ls()) library(grid)heart <- function(lcolor){ t=seq(0, 2*pi, by=0.1) x=16*sin(t)^3 y=13*cos(t)-5*cos(2*t)-2*cos(3*t)-cos(4*t) a=(x-min(x))/(max(x)-min(x)) b=(y-min(y))/(max...
阅读(4234) 评论(0)

[置顶] 【python可视化】python 画饼图,柱状图,折线图,条形图

python数据可视化 内容: 1、python 画柱状图 2、python画条形图 3、python画折线图 4、python画饼图 # -* encoding:utf-8 *- import matplotlib.pyplot as plt ##########设置中文显示 from pylab import * import pandas as pd mpl.rcParams['fo...
阅读(4061) 评论(0)

[置顶] 【go语言爬虫】网贷天眼数据平台爬虫

一、需求分析 利用go语言抓取网贷天眼数据平台昨日数据 字段: 排序 平台名称 成交额 综合利率 投资人 借款周期 借款人 满标速度 累计贷款余额 资金净流入 抓取url: http://www.p2peye.com/shuju/ptsj/二、go语言爬虫实现源代码package mainimport ( "fmt" "io/iout...
阅读(3425) 评论(0)

[置顶] 【python圆周率计算】python计算圆周率π的值到任意位

一、需求分析 输入想要计算到小数点后的位数,计算圆周率π的值。二、算法:马青公式π/4=4arctan1/5-arctan1/239这个公式由英国天文学教授约翰·马青于1706年发现。他利用这个公式计算到了100位的圆周率。马青公式每计算一项可以得到1.4位的十进制精度。因为它的计算过程中被乘数和被除数都不大于长整数,所以可以很容易地在计算机上编程实现。三、python语言编写出求圆周率到任意位的...
阅读(8131) 评论(0)

[置顶] 【python爬虫】网贷天眼平台表格数据抓取

一、需求分析 抓取url: http://www.p2peye.com/shuju/ptsj/抓取字段: 昨日数据 排序 平台名称 成交额 综合利率 投资人 借款周期 借款人 满标速度 累计贷款余额 资金净流入二、python爬虫源代码# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencodin...
阅读(4586) 评论(0)

[置顶] 【R语言爬虫】网贷天眼数据平台表格数据抓取2

一、需求分析 抓取url: http://www.p2peye.com/shuju/ptsj/ 昨日数据: 字段:排序 平台名称 成交额 综合利率 投资人 借款周期 借款人 满标速度 累计贷款余额 资金净流入二、rvest爬虫实现源代码rm(list=ls()) gc() options(scipen = 200) library('rvest') timest...
阅读(4982) 评论(2)

[置顶] 【R语言爬虫】网贷天眼平台表格数据爬虫1

一、需求分析 目标:利用R语言 rvest包 抓取网贷天眼数据平台表格数据。抓取url:http://www.p2peye.com/shuju/ptsj/二、抓取步骤讲解: 1、安装rvset包 install.packages(“rvest”) 2、加载rvest包 library(“rvset”) 3、read_html()函数下载网页源代码...
阅读(5886) 评论(0)
402条 共21页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:446477次
    • 积分:8789
    • 等级:
    • 排名:第2608名
    • 原创:400篇
    • 转载:2篇
    • 译文:0篇
    • 评论:52条
    加朋友
    我的微信:laidefa
    加入群
    数据分析[1群] qq群:697118923 数据挖掘[1群] qq群:331583141
    最新评论