关闭

[置顶] 【linux bash】常用命令集合

常用 Bash 命令以下是在 Linux 中最常用到的指令,在使用新系统进行开发时,记住这些指令对于快速上手非常重要。cd {directory}:转换当前目录 ls -lha:列出目录文件(详细信息) vim or nano:命令行编辑器 touch {file}:创建一个新的空文件 cp -R {original_name} {new_name}:复制一个文件或目录(包含内部所有文件) mv {...
阅读(14) 评论(0)

[置顶] 【python 自然语言处理】画画词云图

主要内容 1、需要一张背景图(hang.jpg) 2、需要文本数据(comments.txt) 3、需要中文字体文件(simsun.ttc)背景图:hang.jpg 效果图:# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8')import jieba.analyse # 导入结巴分...
阅读(17) 评论(0)

[置顶] 【mysql 字符串截取】SUBSTRING_INDEX用法

截取 一个字符串的省、市、区、街道 SELECT SUBSTRING_INDEX(SUBSTRING_INDEX('浙江省-杭州市-余杭区-测试地址' ,'-',-1),'-',1)SELECT SUBSTRING_INDEX(SUBSTRING_INDEX('浙江省-杭州市-余杭区-测试地址' ,'-',-2),'-',1)SELECT SUBSTRING_INDEX(SUBSTRING_INDE...
阅读(16) 评论(0)

[置顶] 【python 自然语言处理】对胡歌【猎场】电视剧评论进行情感值分析

主要内容1、什么是SnowNLP? 2、如何进行情绪判断? 3、猎场豆瓣热门短评抓取。 4、猎场热门短评情感分析。什么是SnowNLP? snowNLP,可以分词,标注,还可以进行情绪分析。 SnowNLP是一个python写的类库,可以方便的处理中文文本内容,是受到了TextBlob的启发而写的,由于现在大部分的自然语言处理库基本都是针对英文的,于是写了一个方便处理中文的类库,并且和TextB...
阅读(79) 评论(0)

[置顶] 【python 天气预报】python制作属于自己的天气预报

主要内容: 1、首先利用request库去请求数据,天气预报使用的是和风天气的API(www.heweather.com/douments/api/s6/weather-forecast),注册完成得到一个key。2、利用python的jinja2模块写一个html模板,用于展示数据3、python的email构建邮件,smtplib发送邮件4、最后使用crontab定时执行python脚本内容效...
阅读(37) 评论(0)

[置顶] 【mysql 执行计划】读懂mysql 中的执行计划

一、什么是mysql执行计划?执行计划,简单的来说,是SQL在数据库中执行时的表现情况,通常用于SQL性能分析,优化等场景。在MySQL使用 explain 关键字来查看SQL的执行计划。如下所示://1. 查询t_base_user select * from t_base_user where name="andyqian";//2. 查看上述语句的执行计划 explain select * f...
阅读(39) 评论(0)

[置顶] 【ubantu crontab】crontab 无法保存退出,坑死了

解决crontab不能编辑和保存的问题EDITOR=vi export EDITOR然后crontab -e就不会有这个问题了...
阅读(33) 评论(0)

[置顶] 【mysql 计算星座】根据身份证计算用户所属星座

SELECT casewhen SUBSTRING(person_card,11,4) between '0120' and '0218' then '水瓶座' when SUBSTRING(person_card,11,4) between '0219' and '0320' then '双鱼座'when SUBSTRING(person_card,11,4) between '0321' and...
阅读(46) 评论(0)

[置顶] 【python 存储过程】python利用mysql存储过程更新数据

一、需求分析 由于管理费率配置错误,生成订单的还本付息表和订单表的各种金额,管理费之间的计算都有错误,需要进行数据订正。为此,为了造个轮子,以后省很多功夫,全部用程序去修正,不接入人工。二、带参数mysql 存储过程创建1、更新订单付息表(t_order_rapay)drop procedure if exists update_t_order_rapay; delimiter $$ create...
阅读(58) 评论(0)

[置顶] 【机器学习 sklearn】手写数字识别 SVM

"D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/SVM.py (1797L, 64L) [[ 0. 0. 5. ..., 0. 0. 0.] [ 0. 0. 0. ..., 10. 0. 0.] [ 0. 0. 0. ..., 16. 9. 0.]...
阅读(68) 评论(0)

[置顶] 【机器学习 sklearn】逻辑斯蒂回归模型--Logistics regression

运行结果:"D:\Program Files\Python27\python.exe" D:/PycharmProjects/sklearn/Logistics_regression.py Logistics regression [[99 1] [ 1 70]] sgdc_y_predict [[98 2] [ 1 70]] Accuracy of LR Classifier: 0.988...
阅读(88) 评论(0)

[置顶] 【数据建模 神经网络】人工神经网络数据处理

人工神经网络数据预处理: 不能有缺失值 移除常量型特征(即这个特征的最大值和最小值相等) 不能接受非数值形式的输入,字符型变量需要编码:One hot编码 Dummy编码 浓度编码变量归一化/标准化 人工神经网络中的参数设置:输入层节点个数 隐藏层层数 隐藏层节点个数 隐藏层联接状态 激活函数 损失函数 学习速率 迭代次数模型的效果AUC score,超过0.7为佳...
阅读(49) 评论(0)

[置顶] 【数据建模 分类器性能指标】性能测评

表示分类正确:True Positive:本来是正样例,分类成正样例。 True Negative:本来是负样例,分类成负样例。 表示分类错误:False Positive :本来是负样例,分类成正样例,通常叫误报。 False Negative:本来是正样例,分类成负样例,通常叫漏报。准确度 : 真正类率(True Postive Rate)TPR: TP/(TP+FN),代表分类器预...
阅读(50) 评论(0)

[置顶] 【数据建模 类别型变量编码】特殊变量的处理

对类别型变量编码1. one-hot编码 2. 浓度编码这里需要详细讲下浓度编码: 某类别型特征下,每一类数据对应的流失率或者是违约率(也可以是非流失率或者非违约率)作为这类数据的编码。 例如性别这个特征:男性人数为x1,男性中流失人数x11,女性人数x2,女性中流失人数x22。 那么我们以x11/x1作为男性编码;x22/x2作为女性编码。WOE编码对日期/时间型变量时间是否为一个...
阅读(39) 评论(0)

[置顶] 【数据建模 缺失值处理】缺失值的处理

缺失类型1、完全随机缺失:缺失值跟其他变量无关,例如婚姻状况的缺失2、随机缺失:缺失值依赖于其他变量,例如“配偶姓名”的缺失取决于“婚姻状况”完全非随机缺失:缺失值依赖于自己,例如高收入人群不愿易提供家庭收入处理方法删除有缺失值的属性或者样本(土豪行为) 插补填充(常用于完全随机缺失且缺失度不高的情形中) 将缺失当成一种属性值(常用于完全非随机缺失) 连续变量缺失值的处理1)对于完全随机缺失,...
阅读(37) 评论(0)

[置顶] 【数据建模 极端值的检测】离群值检测

极端值:又称离群值,往往会扭曲预测结果并影响模型精度。回归模型(线性回归,广义线性回归)中离群值的影响尤其大,使用该模型时我们需要对其进行检测和处理。处理离群值或者极端值并不是数据建模的必要流程,然而,了解它们对预测模型的影响也是大有裨益的。 数据分析师们需要自己判断处理离群值的必要性,并结合实际问题选取处理方法。 检测离群值的重要性:由于离群值的存在,模型的估计和预测可能会有很大的偏差或者变化...
阅读(52) 评论(0)

[置顶] 【数据建模 卡方检验】了解卡方检验

卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,卡方值越大,越不符合;卡方值越小,偏差越小,越趋于符合,若两个值完全相等时,卡方值就为0,表明理论值完全符合。注意:卡方检验针对分类变量。 (1)提出原假设: H0:总体X的分布函数为F(x) 如果总体分布为离散型,则假设具体为H0:总体X的分布律为P{X=xi}...
阅读(45) 评论(0)

[置顶] 【数据建模 方差分析】单因素方差分析

单因素方差分析: (一)单因素方差分析概念理解步骤 ①是用来研究一个控制变量的不同水平是否对观测变量产生了显著影响。这里,由于仅研究单个因素对观测变量的影响,因此称为单因素方差分析。 ②单因素方差分析的第一步是明确观测变量和控制变量。例如,上述问题中的观测变量分别是农作物产量、妇女生育率、工资收入;控制变量 分别为施肥量、地区、学历。 ③单因素方差分析的第二...
阅读(54) 评论(0)

[置顶] 【数据建模 IV】特征信息度

IV(Information Value), 衡量特征包含预测变量浓度的一种指标特征信息度解构: 其中Gi,Bi表示箱i中好坏样本占全体好坏样本的比例。  WOE表示两类样本分布的差异性。  (Gi-Bi):衡量差异的重要性。 特征信息度的作用  选择变量:非负指标 高IV表示该特征和目标变量的关联度高 目标变量只能是二分类 过高的IV,可能有潜在的风险 特征分箱越细,IV越高...
阅读(72) 评论(0)

[置顶] 【数据建模 WOE编码】WOE(weight of evidence, 证据权重)

WOE(weight of evidence, 证据权重)一种有监督的编码方式,将预测类别的集中度的属性作为编码的数值优势   将特征的值规范到相近的尺度上。   (经验上讲,WOE的绝对值波动范围在0.1~3之间)。   具有业务含义。    缺点   需要每箱中同时包含好、坏两个类别。...
阅读(79) 评论(0)

[置顶] 【数据建模 特征分箱】特征分箱的方法

在建模中,需要对连续变量离散化,特征离散化后,模型会更稳定,降低了模型过拟合的风险。有监督的卡方分箱法(ChiMerge)自底向上的(即基于合并的)数据离散化方法。 它依赖于卡方检验:具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。 基本思想:对于精确的离散化,相对类频率在一个区间内应当完全一致。因此,如果两个相邻的区间具有非常类似的类分布,则这两个区间可以合并;否则,它们应当保持分开...
阅读(141) 评论(0)

[置顶] 【R 语言 数据抽样】将样本总体分为样本集和测试集

方法1:rm(list=ls()) gc() german_credit <- read.csv("C:/pic/credit/german_credit.csv",sep = ",")names(german_credit)# 需要将样本总体分为样本集和测试集 # 简单随机抽样 smp1<-sample(nrow(german_credit),300,replace=F) train_data=g...
阅读(87) 评论(0)

[置顶] 【R语言 评分模型】R语言建立信用评分模型

1、数据源: 我们将会使用在信用评级建模中非常常用的德国信贷数据(German credit dataset)作为建模的数据集。德国信贷数据共有1000条数据,每条数据20个特征。2、数据源下载: https://github.com/frankhlchi/R-scorecard3、建模过程4、完整版(源代码):rm(list=ls()) gc() library(caret) library(...
阅读(74) 评论(0)

[置顶] 【python 生成自己的二维码】推广二维码带log图片

如何安装?用pip安装pip install qrcode pip install pillow# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') # import qrcode # img=qrcode.make("农粒贷震撼上线~") # img.save("c:/test.png")""" 生成带l...
阅读(106) 评论(0)

[置顶] 【验签算法 HMAC-MD5】实现HMacMD5加密

什么是 HMAC-MD5?1、比如你和对方共享了一个密钥K,现在你要发消息给对方,既要保证消息没有被篡改,又要能证明信息确实是你本人发的,那么就把原信息和使用K计算的HMAC的值一起发过去。对方接到之后,使用自己手中的K把消息计算一下HMAC,如果和你发送的HMAC一致,那么可以认为这个消息既没有被篡改也没有冒充。2、MD5就是通过散列对要输出的数据进行摘要,接收到数据时,再同样进行MD5散列,与给...
阅读(165) 评论(0)

[置顶] 【机器学习 数据预处理】fit_transform()和transform()的区别

# 从sklearn.preprocessing导入StandardScaler from sklearn.preprocessing import StandardScaler # 标准化数据,保证每个维度的特征数据方差为1,均值为0,使得预测结果不会被某些维度过大的特征值而主导 ss = StandardScaler() # fit_transform()先拟合数据,再标准化...
阅读(82) 评论(0)

[置顶] 【神经网络 隐含层节点数的设置】如何设置神经网络隐藏层 的神经元个数

当训练集确定之后,输入层结点数和输出层结点数随之而确定,首先遇到的一个十分重要而又困难的问题是如何优化隐层结点数和隐层数。实验表明,如果隐层结点数过少,网络不能具有必要的学习能力和信息处理能力。反之,若过多,不仅会大大增加网络结构的复杂性(这一点对硬件实现的网络尤其重要),网络在学习过程中更易陷入局部极小点,而且会使网络的学习速度变得很慢。隐层结点数的选择问题一直受到神经网络研究工作者的高度重视。方...
阅读(147) 评论(0)

[置顶] 【深度学习 框架】PaddlePaddle的安装

CPU版本安装 pip install paddlepaddleGPU版本安装 pip install paddlepaddle-gpu训练步骤 导入数据—->定义网络结构—->训练模型—->保存模型—->测试结果#coding:utf-8 import os from PIL import Image import numpy as np import paddle.v2 as paddle...
阅读(160) 评论(0)

[置顶] 【python 神经网络】BP神经网络python实现-iris数据集分类

输入数据集iris: (只有两类Iris-virginica or Iris-versicolor. 100条)sepal_length sepal_width petal_length petal_width species 7 3.2 4.7 1.4 Iris-versicolor 6.4 3.2 4.5 1.5 Iris-versicolor 6.9 3.1 4.9 1.5...
阅读(145) 评论(0)

[置顶] 【python sklearn】kmeans算法运用

# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import timetime1=time.time() import pandas as pd from sklearn.externals import joblib from sklearn.preprocessing import scale...
阅读(97) 评论(0)

[置顶] 【python sklearn】决策树运用

数据形式(tree.csv):age look income orderly target older ugly low yes no young ugly high no no young handsome low no no young handsome high yes yes young handsome m...
阅读(114) 评论(0)

[置顶] 【mysql 字符串函数】MySQL中字符串匹配函数LOCATE和POSITION使用方法

1. 用法一LOCATE(substr,str) POSITION(substr IN str)函数返回子串substr在字符串str中第一次出现的位置。如果子串substr在str中不存在,返回值为0。mysql> SELECT LOCATE('bar', 'foobarbar'); -> 4 mysql> SELECT LOCATE('xbar', 'foobar'); -> 0 这个函数是大小...
阅读(104) 评论(0)

[置顶] 【python 爬虫】链家天津租房在售房源数据爬虫

爬取字段:户型、面积、朝向、小区、价格、url#-*-coding:utf-8-*- import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests from lxml import etree import pandas as pd time1=time.time() import re impo...
阅读(210) 评论(0)

[置顶] 【模型 区分度】神秘的KS值和GINI系数

有效性指标中的区分能力指标:KS(Kolmogorov-Smirnov):KS用于模型风险区分能力进行评估, 指标衡量的是好坏样本累计分部之间的差值。 好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。KS的计算步骤如下: 1. 计算每个评分区间的好坏账户数。 2. 计算每个评分区间的累计好账户数占总好账户数比率(good%)和累计坏账户数占总坏账户数比率(bad%)。 3....
阅读(492) 评论(0)

[置顶] 【web html】html 知识点

需要掌握部分掌握HTML的全部语法,他的主体结构,超链接及常用标记使用!1、HTML的语法(主要讲解HTML语法格式、文档注释、代码格式) 2、HTML的基本机构(主要讲解的标记) 3、文档设置标记上-格式标记(主要讲解的标记) 4、文档设置标记...
阅读(72) 评论(0)

[置顶] 【matlab 求极限】limit函数求极限

syms x; y1=(4*x^3-2*x^2+x)/(3*x^2+2*x); limit(y1,x,0)>> syms x; y1=(4*x^3-2*x^2+x)/(3*x^2+2*x); limit(y1,x,0)ans =1/2>>...
阅读(137) 评论(0)

[置顶] 【python 可视化】pyecharts + Django 使用指南

本指南按照 Django 官方教程,通过完成一个 Django 小项目来说明如何在 Django 中使用 pyecharts。如果对 Django 还不太熟悉的开发者,可仔细阅读官方提供的最新文档。 Step 0: 使用新的 virtualenv 环境建议开发者使用 1.11.4 版本的 Django$ virtualenv --no-site-packages pyecharts-env $ s...
阅读(530) 评论(0)

[置顶] 【python 可视化】pyecharts + Flask 使用指南

本指南会以一个小的 Flask 项目为例,说明如何在 Flask 中使用 pyecharts。请确保你已经安装 Flask,还没安装请执行 pip install flask 或其他方式安装。Step 0: 首先新建一个 Flask 项目Linux/macos 系统$ mkdir flask-echarts $ cd flask-echarts $ mkdir templatesWindows 系统...
阅读(550) 评论(0)

[置顶] 【python 数据可视化】pyecharts的使用

Echarts是百度出的很有名 也很叼。 Echarts 是百度开源的一个数据可视化 JS 库。主要用于数据可视化。 pyecharts 是一个用于生成 Echarts 图表的类库。实际上就是 Echarts 与 Python 的对接。网址: https://github.com/chenjiandongx/pyecharts/blob/master/docs/zh-cn/documenta...
阅读(656) 评论(5)

[置顶] 【python web】Flask+Echarts 实现动图图表

flask 是python web开发的微框架,Echarts酷炫的功能主要是javascript起作用,将两者结合起来,发挥的作用更大。下面将Echarts嵌套进Flask的html模板中。项目结构: 打开demo.py运行,点击console中的链接http://127.0.0.1:5000/ 就可以看到我们想要的动态图表。demo.py#coding:utf-8from flask impo...
阅读(1369) 评论(0)

[置顶] 【Python NLP入门教程】词频统计和处理停用词,可视化

# coding=utf-8 import requests import sys reload(sys) sys.setdefaultencoding('utf-8') from lxml import etree import time time1=time.time() import bs4 import nltk from bs4 import BeautifulSoup from n...
阅读(315) 评论(0)

[置顶] 【python 数据处理】分组求和、合并

# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import time import pandas as pd import xlsxwriter time1 = time.time() import numpy as np #############读取数据######################...
阅读(116) 评论(0)

[置顶] 【python 爬虫】伪造UA字符串

写好爬虫的原则只有一条: 就是让你的抓取行为和用户访问网站的真实行为尽量一致。1、伪造UA字符串,每次请求都使用随机生成的UA。 为了减少复杂度,随机生成UA的功能通过第三方库fake-useragent实现pip install fake-useragent2、生成一个UA字符串只需要如下代码:核心代码:from fake_useragent import UserAgent ua=UserA...
阅读(1203) 评论(0)

[置顶] 【linux 服务器运行情况】了解Linux服务器运行情况

1、free 在Linux下,使用free命令获取当前内存的使用情况[root@izbp1f0leha0lvmqfhigzpz code]# free -h total used free shared buff/cache available Mem: 1.8G 84M 17...
阅读(97) 评论(0)

[置顶] 【web html】html 大全

h1 {color:red;} p {color:blue;} div { border:2px solid #a1a1a1; padding:10px 40px; background:#dddddd; width:300px;...
阅读(243) 评论(0)

[置顶] 【linux 磁盘管理】Linux磁盘管理常用三个命令为df、du和fdisk。

Linux磁盘管理好坏管理直接关系到整个系统的性能问题。 Linux磁盘管理常用三个命令为df、du和fdisk。df:列出文件系统的整体磁盘使用量 du:检查磁盘空间使用量 fdisk:用于磁盘分区[root@izbp1f0leha0lvmqfhigzpz code]# df Filesystem 1K-blocks Used Available Use% Mounted on /...
阅读(89) 评论(0)

[置顶] 【linux yum常用命令】linux yum 命令

yum常用命令 1.列出所有可更新的软件清单命令:yum check-update2.更新所有软件命令:yum update3.仅安装指定的软件命令:yum install 4.仅更新指定的软件命令:yum update 5.列出所有可安裝的软件清单命令:yum list6.删除软件包命令:yum remove 7....
阅读(99) 评论(0)

[置顶] 【go 通道】go语言通道channel

通过使用通道,在多个goroutine发送和接受共享的数据,达到数据同步的目的。通道,他有点像在两个routine之间架设的管道,一个goroutine可以往这个管道里塞数据,另外一个可以从这个管道里取数据,有点类似于我们说的队列。声明一个通道很简单,我们使用chan关键字即可,除此之外,还要指定通道中发送和接收数据的类型,这样我们才能知道,要发送什么类型的数据给通道,也知道从这个通道里可以接收到什...
阅读(92) 评论(0)

[置顶] 【动态语言和静态语言的比较】动态or静态?

定义:强类型语言(静态类型语言)是指需要进行变量/对象类型声明的语言,一般情况下需要编译执行。例如C/C++/Java/C#/scala/goland弱类型语言(动态类型语言)是指不需要进行变量/对象类型声明的语言,一般情况下不需要编译(但也有编译型的)。例如PHP/ASP/Ruby/Python/Perl/ABAP/SQL/JavaScript/Unix Shell/R语言等等。优势: 强类型的...
阅读(81) 评论(0)

[置顶] 【python 邮件报表】无附件的邮件报表

简化版:#coding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') from mako.template import Template from mako.lookup import TemplateLookup import smtplib from email.mime.text import MIMEText f...
阅读(98) 评论(0)

[置顶] 【linux tree】linux下tree的用法

tree命令,主要功能是创建文件列表,将所有文件以树的形式列出来 linux下的tree就比较强大了,但一般系统并不自带这个命令,需要手动下载安装, 安装 :yum -y install tree-a 显示所有文件和目录。-A 使用ASNI绘图字符显示树状图而非以ASCII字符组合。-C 在文件和目录清单加上色彩,便于区分各种类型。-d 显示目录名称而非内容。-D 列出文件或目录的更改时间。-f...
阅读(123) 评论(0)

[置顶] 【html 表格样式】table 设置

<div style="text-align:center;width:80%;padding: 8px; line-height: 1.42857; vertical-align: top; border-top-width: 1px; border-top-color: rgb(2...
阅读(130) 评论(0)

[置顶] 【python 数据报表】发送带有样式和附件的邮件

给运营和产品同事定期发送一些用于运营和产品决策的统计报表邮件,邮件通常是表格为主体,一般也会带有一个或者多个附件。让邮件带有css样式,让读邮件也成为一件愉快的事情。修改版效果: 版本1:# coding=utf-8import sys reload(sys) sys.setdefaultencoding('utf-8') import os import csv import smtplib f...
阅读(1009) 评论(0)

[置顶] 【python 文件加密算法】python检测文件的MD5值

具体来说,每个文件都会有一个MD5的加密值,这个值来唯一标识这个文件大文件加密算法:# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8')############################导入相应的包########################### import hashlib import os...
阅读(117) 评论(0)

[置顶] 【python Django】django入门教程1

1。创建一个项目确保你的电脑上装了python和Django。我的是在python2.7和Django-1.10.5实现的。win+R,cmd进入命令行,在命令行输入:(我是进入D盘创建的mysite文件夹)D: django-admin django-admin startproject mysite cd mysite python manage.py创建的项目目录结构 运行一下:python...
阅读(129) 评论(0)

[置顶] 【python 数据标准化】利用sklearn做标准化

# -*- coding: utf-8 -*- from __future__ import division import sys reload(sys) sys.setdefaultencoding('utf-8') import pandas as pd from sklearn import preprocessing import numpy as np # pandas读取 Excel...
阅读(102) 评论(0)

[置顶] 【python 加密解密】python中的加密解密模块使用

# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8')#######################Base64加密解密(可逆)################### # Base64编码,64指A-Z、a-z、0-9、+和/这64个字符,还有“=”号不属于编码字符,而是填充字符 import base64...
阅读(717) 评论(0)

[置顶] 【go语言 curl】golang版本的curl请求库

github源码网站:https://github.com/mikemintang/go-curl如何安装包go get github.com/mikemintang/go-curl发送post请求:package mainimport ( "fmt" "github.com/mikemintang/go-curl" )func main() { url := "http://...
阅读(232) 评论(0)

[置顶] 【go语言 slice】迭代slice

go语言内置一个关键字range用于迭代集合,当然他也可以迭代slice,也可以使用 _ 来忽略我们不关心的元素,但是如果只关心index则不需这么写 for index,_ := range slice1。下在给出完整代码package main import ( "fmt")func main() { // 创建一个容量和长度均为6的slice slice1 := [...
阅读(73) 评论(0)

[置顶] 【python 分组求和功能】类似透视表的作用

# encoding: utf-8import sys reload(sys) sys.setdefaultencoding('utf-8') import time import pandas as pd import xlsxwriter time1 = time.time() import numpy as np #############读取数据#######################...
阅读(172) 评论(0)

[置顶] 【go 指针数组】go语言中的指针数组

声明一个包含有5个整数指针类型的数组,我们可以在初始化时给相应位置的元素默认值。下面是给索引为0的元素一个新建的的int类型指针(默认为0),给索引为1的元素指向值v的地址,剩下的没有指定默认值的元素为指针的zero值也就是nilpackage mainimport "fmt"func main() { var v int = 6 array := [5]*int{0: new(in...
阅读(134) 评论(0)

[置顶] 【linux C语言开发】阿里云服务器下c语言开发

1、linux下安装C语言环境yum -y install gcc yum install gcc gcc-c++2、linux下建立.c文件mkdir HelloWorld cd HelloWorld touch hello.c#include void main() { int i,sum=0; for(i=1;i<=100;i++){ sum+=i; } pr...
阅读(141) 评论(0)

[置顶] 【python linux下定时任务跑】crontab -e使用

1、shell 下 执行 python程序#!/bin/shpython /home/laidefa/msg_json/code/request_msg_json.pypython /home/laidefa/msg_json/code/ftp_uploadfile.py2、crontab -e 下执行定时任务跑python脚本每天八天半执行 每天八点四十执行# 30 8 * * * python...
阅读(1046) 评论(0)

[置顶] 【python 写入数据到excel】自定义写入数据到excel顺序 排列

例子1数据框顺序写入Excel: data=a import xlsxwriter workbook = xlsxwriter.Workbook('F:/chart1.xlsx') worksheet = workbook.add_worksheet('请求接口')title = [u'订单号',u'债权编号',u'请求参数',u'创建时间',u'结果']print data.iloc[:,0]fo...
阅读(1419) 评论(0)

[置顶] 【python 域名所有者识别】python 识别网站域名 所有者

对于一些网站,我们可能会关心其所有者是谁。为了找到网站的所有者,我们可以使用WHOIS协议查询域名的注册者是谁。Python中有一个对该协议的封装库。我们可以通过pip进行安装。pip install python-whois导入模块 import whois>>> import whois >>> whois.whois('https://www.cgtz.com/') {u'updated_da...
阅读(100) 评论(0)

[置顶] 【python 爬虫】识别网站所用技术

有一个十分有用的工具可以检查网站构建的技术类型——builtwith 模块(只支持python2环境,python3环境报错)。pip install builtwith该模块将 URL 作为参数,下载该 URL 并对其进行分析,然后返回该网站使用的技术。举个例子:>>> import builtwith >>> builtwith.parse('http://xxxxxxxxxxxxxxxxxx'...
阅读(476) 评论(0)

[置顶] 【linux下 scrapy 安装】Python.h: No such file or directory

pip install scrapy出现错误: Python.h: No such file or directory解决办法:# CentOS 使用下面命令 # yum install python-devel...
阅读(168) 评论(0)

[置顶] 【python FTP】python操作FTP

上传来一个简单例子#!/usr/bin/python #coding=utf-8 from ftplib import FTP #引入ftp模块 import os ftp = FTP("ip") #设置ftp服务器地址 ftp.login('username', 'password') #...
阅读(110) 评论(0)

[置顶] 【mysql 中文和英文长度】mysql 如何 计算中文和英文的长度

如何实现计算一串字符长度,中文算2 非中文算1SELECT CHAR_LENGTH(‘aaa你好’)+(LENGTH(‘aaa你好’)-CHAR_LENGTH(‘aaa你好’))/2...
阅读(119) 评论(0)

[置顶] 【python 读取mysql数据】Python如何读取MySQL数据库表数据

目的:从MySQL数据库读取目标表数据,并处理# -*- coding: utf-8 -*-import pandas as pd import pymysql## 加上字符集参数,防止中文乱码 dbconn=pymysql.connect( host="**********", database="kimbo", user="kimbo_test", password="*****...
阅读(151) 评论(0)

[置顶] 【R语言 linux环境配置】linux下安装R语言

tar -zxvf R-3.4.1.tar.gz cd R-3.4.1yum install gcc-gfortran yum install gcc gcc-c++ yum install readline-devel yum install libXt-devel yum install zlib-devel yum -y install bzi...
阅读(149) 评论(0)

[置顶] 【java 环境变量配置】linux下java环境变量配置

vim /etc/profileexport JAVA_HOME=/usr/share/jdk1.6.0_14 export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar...
阅读(115) 评论(0)

[置顶] 【python 爬虫】百度贴吧帖子所有楼层图片爬虫

下载百度贴吧帖子图片,好好看 python2.7版本:#coding=utf-8 import re import requests import urllib from bs4 import BeautifulSoup import time time1=time.time() def getHtml(url): page = requests.get(url) html =pa...
阅读(167) 评论(0)

[置顶] 【go语言 安装第三方包】阿里云下go语言如何装第三方包?

1、创建gopath文件夹及子文件夹创建文件 gopath,并且 在 gopath 目录下创建三个子文件夹。 bin pkg srcmkdir gopath cd gopath mkdir bin pkg src2、安装gityum install git3、设置gopath路径vim /etc/profile GOPATH=/root/software/gopath使之生效source /et...
阅读(97) 评论(0)

[置顶] 【linux go语言安装】阿里云下go语言如何安装?

1、到go语言中文网下载go在linux下的安装包 下载网址:https://studygolang.com/dl 如果是64位的linux系统,就下载64位,32位的就下载32位的。 如何查看是64位,还是32位?uname -a2、将下载的安装包上传到服务器rz 3、上传成功之后,解压缩tar -zxvf go1.9.linux-amd64.tar.gz4、解压成功后,设置环境变量PATH...
阅读(188) 评论(0)

[置顶] AttributeError: 'module' object has no attribute '_base' 可行解决办法

报错误: class TreeBuilderForHtml5lib(html5lib.treebuilders._base.TreeBuilder): AttributeError: ‘module’ object has no attribute ‘_base’解决办法:要升级html5lib库至1.0b8 可以解决问题.pip install --upgrade html5lib==1.0b...
阅读(138) 评论(0)

[置顶] 【scrapy ip代理池】如何解决ip被限制的问题

1、首先写一个脚本proxies.py 自动获取代理ip# *-* coding:utf-8 *-* import requests from bs4 import BeautifulSoup import lxml from multiprocessing import Process, Queue import random import json import time import req...
阅读(296) 评论(0)

[置顶] 【python 资料整理】机器学习、数学、Python 速查表

1、机器学习 http://www.asimovinstitute.org/neural-network-zoo/https://docs.microsoft.com/en-us/azure/machine-learning/machine-learning-algorithm-cheat-sheethttp://blogs.sas.com/content/subconsciousmusings/...
阅读(148) 评论(0)

[置顶] 【python 数据框重命名列名】Pandas中DateFrame修改列名

1、加载数据:>>>import pandas as pd >>>a = pd.DataFrame({'A':[1,2,3], 'B':[4,5,6], 'C':[7,8,9]}) >>> a A B C 0 1 4 7 1 2 5 8 2 3 6 92、最好的方法>>>a.rename(columns={'A':'a', 'B':'b', 'C':'c'}, inpl...
阅读(424) 评论(0)

[置顶] 【python 接口开发】如何用python开发自己的接口

1、需要安装的模块 安装两个包pip install flask pip install flask-restful2、一个最小的接口像这样:# coding=utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8')from flask import Flask import flask_restful app = Flask(__n...
阅读(326) 评论(0)

[置顶] 【python Flask】Flask-Bootstrap的使用

Bootstrap是 Twitter 开发的一个开源框架,它提供的用户界面组件可用于创建整洁且具有吸引力的网页,而且这些网页还能兼容所有现代 Web 浏览器。1、如何安装?要想在程序中集成 Bootstrap, 显然要对模板做所有必要的改动。不过,更简单的方法是使用一个名为 Flask-Bootstrap 的 Flask 扩 展,简化集成的过程。 Flask-Bootstrap 使用 pip安装:p...
阅读(248) 评论(0)

[置顶] 【linux 解压】Centos下解压rar、zip文件的方法

wget http://www.rarsoft.com/rar/rarlinux-4.0.1.tar.gztar -zxvf rarlinux-4.0.1.tar.gzcd rar make看见下面这些信息就是安装成功了mkdir -p /usr/local/binmkdir -p /usr/local/libcp rar unrar /usr/local/bincp rarfiles.lst /e...
阅读(234) 评论(0)

[置顶] 【R 可视化】R语言画函数图

rm(list=ls()) x=seq(-0.99,5,0.1) f=log2(sqrt(x+1)) plot(x,f,type="l", lwd=2,col="red",ylim=c(-2,2),main="f=log2(sqrt(x+1)")...
阅读(235) 评论(0)

[置顶] 【acsess 多个left join】acsess 数据库 多个left join关联

selectw1.f2,w1.f4,(w1.f16_6s+w2.f16_3+w3.f16_4+w4.f16_5) as total_scorefrom(((( selectm.f2,m.f4,iif(m.f4 in ('总经办','财务部','人事部','业务部','采购部','生产部','PMC','技术部'),m.f16_12*0.3,iif(m.f4 in ('品保部','机加课','拋光课'...
阅读(157) 评论(0)

[置顶] 【R语言 预测数值型数据】多元回归、神经网络预测数值型目标变量

rm(list = ls()) gc()######################读取数据###################### data <- read.csv("C:/train.csv",sep=",",header=T)data <- data[-1]# data <- data[sample(1:nrow(data),500),] #######################试过...
阅读(221) 评论(0)

[置顶] 【mysql 分组取前几条】 先按某字段分组再取每组中前N条记录

先造数据 1、建表CREATE TABLE `t2` ( `id` int(11) NOT NULL, `gid` char(1) DEFAULT NULL, `col1` int(11) DEFAULT NULL, `col2` int(11) DEFAULT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=u...
阅读(628) 评论(0)

[置顶] 【R语言 数据处理】R做数据处理中的小技巧

一、主要内容 创建新变量 修改数据 修改变量名 处理缺失值 数据排序 数据合并 数据筛选 抽样二、R语言代码rm(list=ls()) gc() manager <- c(1,2,3,4,5) date <- c("10/24/08", "10/28/08", "10/1/08", "10/12/08", "5/1/09") country <- c("US", "US", "UK"...
阅读(425) 评论(0)

[置顶] 【scala 基础】变量、函数、控制结构、数据类型

一、主要内容 Scala中变量的声明与函数定义 Scala中的控制结构 Scala中的数据类型1:变量声明与函数定义 变量声明:val 和 var ,两者的区别是val声明的变量是不可变的,而var声明的变量可变带返回值scala> def max(x:Int,y:Int):Int = { | if(x>y) x | else y...
阅读(110) 评论(0)

[置顶] 【二分-kMeans算法】二分K均值聚类分析与Python代码实现

一、k-means算法优缺点 k均值简单并且可以用于各种数据类型,它相当有效,尽管常常多次运行。然后k均值并不适合所有的数据类型。它不能处理非球形簇,不同尺寸和不同密度的簇。对包含离群点(噪声点)的数据进行聚类时,k均值也有问题。二、k-means算法python实现#encoding:utf-8 from numpy import *def loadDataSet(filename):...
阅读(206) 评论(0)

[置顶] 【ML--15】在R语言中使用决策树算法做多分类预测

1、R实现代码####################################决策树算法################# rm(list=ls()) gc() options(scipen = 200) library(party) iris <- iris ##########划分训练和测试集################# set.seed(2016) train.indeces<-...
阅读(464) 评论(0)

[置顶] 【ML--14】在R语言中使用SVM算法做多分类预测

我们采用iris数据集进行学习和测试,最后看看它的效果。 1、载入SVM算法包library(e1071)2、划分训练和测试集划分训练和测试集时,采用set.seed函数设随机数种子,这能保证划分得到的训练和测试集与C5.0完全相同,方便后续测试效果的比较。set.seed(2016) train.indeces<-sample(1:nrow(iris),100) iris.train<-ir...
阅读(220) 评论(0)

[置顶] 【R语言 爬虫】Rwebdriver 安装方法

RSelenium和Rwebdriver个人刚接触不久,除了语法不太一样以为,都是调用的Selenium Server。一个是2012年发布的包,一个是比较新的包需要在github下载。个人推荐使用Rwebdriver,不仅因为新,跟python里的RSelenium函数很多非常相似。安装步骤library(devtools)#如果没有安装要下载安装 install_github(repo = "...
阅读(186) 评论(0)

[置顶] 【mysql 增删改查】MySql数据库的查询、删除、增加、修改语句

介绍mysql数据库的基本操作,曾、删、查、改。查询表的外连接等常用数据库语句。设置数据库可以被其他计算机连接 。1、查询数据:select * from xxx; 例子:(1)select id,username,password from t_user; (2)select id,username,password,gender from t_user where gender = '男';...
阅读(112) 评论(0)

[置顶] 【python txt合并】python合并同一个文件夹下所有txt文件

一、需求分析 合并一个文件夹下所有txt文件 二、合并效果 三、python实现代码# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8')import os import os.path import time time1=time.time()##########################合...
阅读(358) 评论(0)

[置顶] 【python Excel 合并】python合并同一个文件夹下所有excel文件

一、需求说明 一个文件夹下有多个excel表格,格式统一,均为 xlsx后缀,字段也一样,现在要合并为一个excel表格。 二、合并效果 三、python 实现代码# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import pandas as pd import os import os...
阅读(375) 评论(0)

[置顶] 【python PDF合并】python 合并同一个文件夹下所有PDF文件

一、需求说明 下载了网易云课堂的吴恩达免费的深度学习的pdf文档,但是每一节是一个pdf,我把这些PDF文档放在一个文件夹下,希望合并成一个PDF文件。于是写了一个python程序,很好的解决了这个问题。二、数据形式 三、合并效果 四、python代码实现# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultenco...
阅读(1819) 评论(0)

[置顶] 【python 图像绘制】图像绘制知识总结

颜色图谱 具体颜色描述 autumn 红橙黄 cool 青-洋红 copper 黑-铜 flag 红-白-蓝-黑 gray 黑-白 hot 黑-红-黄-白 hsv hsv颜色空间, 红-黄-绿-青-蓝-洋红-红 inferno 黑-红-黄 jet 蓝-青-黄-红 magma 黑-红-白 pink 黑-粉-白 plasma 绿-红-黄 prism 红-黄-绿...
阅读(160) 评论(0)

[置顶] 【python 图像处理】skimage的子模块介绍

skimage包的全称是scikit-image SciKit (toolkit for SciPy) ,它对scipy.ndimage进行了扩展,提供了更多的图片处理功能。它是由python语言编写的,由scipy 社区开发和维护。skimage包由许多的子模块组成,各个子模块提供不同的功能。主要子模块如下:io:读取、保存和显示图片或视频 data:提供一些测试图片和样本数据 color:颜色空...
阅读(314) 评论(0)

[置顶] 【python 图像切割】matplotlib读取图像,裁剪图像

#-*-coding:utf-8-*- import sys reload(sys) sys.setdefaultencoding('utf-8')import matplotlib.pylab as plt # 加载图像 im = plt.imread("E:/ID/2.png")print(im.shape)# (y轴像素点数, x轴像素点数,图像通道数) def plti(im, **kwar...
阅读(189) 评论(0)

[置顶] 【matlab 图像处理】MATLAB中图像处理的函数

MATLAB 图像处理命令1、 MATLAB中图像处理的一些简单函数A、 imread imread函数用于读入各种图像文件,其一般的用法为 [X,MAP]=imread(‘filename’,‘fmt’)其中,X,MAP分别为读出的图像数据和颜色表数据,fmt为图像的格式,filename为读取的图像文件(可以加上文件的路径)。例:[X,MAP]=imread(’flowers.tif’,’t...
阅读(207) 评论(0)

[置顶] 【python 爬虫】linux 下 selenium+phantomjs 自动模拟登陆

#!/usr/bin/python #-*-coding:utf-8-*- import urllib import re import sys reload(sys) sys.setdefaultencoding('utf-8') import urllib2 import json import pandas as pd import time time1 = time.time()# yest...
阅读(710) 评论(0)

[置顶] 【python 人脸检测】opencv 进行人脸检测

#coding=utf-8 import time time1=time.time() import cv2 #初始化 opencv 的 Cascade Classification,它的作用是产生一个检测器 faceCascade = cv2.CascadeClassifier("E:/haarcascade_frontalface_default.xml") image = cv2.imread...
阅读(1166) 评论(0)

[置顶] 【python 验证码】产生中文验证码

#-*-coding:utf-8-*- import sys reload(sys) sys.setdefaultencoding('utf-8')from PIL import ImageDraw,ImageFont from PIL import Image import random import math, stringclass RandomChar(): @staticmethod...
阅读(2648) 评论(0)

[置顶] 【python 爬虫】python中url链接编码处理方法

一、问题描述 有些网址,会把中文编码成gb2312格式,例如百度知道,美容这一词,网址上面会编码成:%C3%C0%C8%DD那么如何生成这种编码呢?二、解决方法 1、把要编码的文字encode成所需格式 2、利用urllib 库的quote方法编码# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8'...
阅读(1199) 评论(0)

[置顶] 【python 爬虫】python如何以request payload形式发送post请求

普通的http的post请求的请求content-type类型是:Content-Type:application/x-www-form-urlencoded, 而另外一种形式request payload,其Content-Type为application/jsonimport json url = 'https://api.github.com/some/endpoint' payload =...
阅读(1123) 评论(0)

[置顶] 【ML--13】聚类--层次聚类

一、基本概念 层次聚类不需要指定聚类的数目,首先它是将数据中的每个实例看作一个类,然后将最相似的两个类合并,该过程迭代计算只到剩下一个类为止,类由两个子类构成,每个子类又由更小的两个子类构成。层次聚类方法对给定的数据集进行层次的分解,直到某种条件满足或者达到最大迭代次数。具体又可分为: 凝聚的层次聚类(AGNES算法):一种自底向上的策略,首先将每个对象作为一个簇,然后合并这些原子簇为越来越大的...
阅读(105) 评论(0)

[置顶] 【python 图像拼接】 微信好友头像下载和拼接技术

今天突发奇想,想到图像拼接的技术,做了一个自己微信好友的图像拼接,感觉还蛮好玩的。5*5 10*10 19*19 实现代码1:微信头像爬虫:#-*-coding:utf-8-*- import urllib import re import sys reload(sys) sys.setdefaultencoding('utf-8') import itchat import math imp...
阅读(1297) 评论(0)

[置顶] 【ML--12】聚类---K-means算法

1. 归类: 聚类(clustering) 属于非监督学习 (unsupervised learning) 无类别标记(class label)2. 举例:3. K-means 算法: 3.1 Clustering 中的经典算法,数据挖掘十大经典算法之一 3.2 算法接受参数 k ;然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足:...
阅读(191) 评论(0)

[置顶] 【DL--22】实现神经网络算法NeuralNetwork以及手写数字识别

1.NeuralNetwork.py#coding:utf-8import numpy as np#定义双曲函数和他们的导数 def tanh(x): return np.tanh(x)def tanh_deriv(x): return 1.0 - np.tanh(x)**2def logistic(x): return 1/(1 + np.exp(-x))def logis...
阅读(1175) 评论(0)

[置顶] 【python 图像检测】图像模糊检测算法

一、需求说明如果图片模糊应该让客户端进行重拍,这个功能还是比较重要的,因此希望通过算法自动检测一张图片是否模糊,程序自动判别出来图像的模糊程度。二、开发工具运行环境:python2.7 计算机视觉库:opencv三、算法流程3.1、读入原始图像 3.2、对原始图像进行灰度化 3.3、用3x3的拉普拉斯算子进行滤波处理 4.4、计算处理后图像的均值和方差 3.5、将方差当做模糊检测的阈值,如...
阅读(567) 评论(0)

[置顶] 【python 爬虫】全国失信被执行人名单爬虫

一、需求说明 通过百度的接口,爬取全国失信被执行人名单。翻页爬虫,获取姓名,身份证等信息。二、python实现版本1:# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests time1=time.time() import pandas as pd...
阅读(353) 评论(0)

[置顶] 【python 爬虫】全国失信被执行人名单查询功能

一、需求说明 利用百度的接口,实现一个全国失信被执行人名单查询功能。输入姓名,查询是否在全国失信被执行人名单中。二、python实现# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests time1=time.time() import p...
阅读(1366) 评论(0)

[置顶] 【深度学习 环境配置】软件包安装和环境配置

OS: Linux: Ubuntu 14.04安装:1. Pip (Python 2.7.9或以上自带pip): sudo apt-get install pyton-pip2. 尝试安装scikit-neuralnetwork: 需要 numpy scipy theanosudo pip install scikit-neuralnetwork错误:SystemError: cannot co...
阅读(157) 评论(0)

[置顶] 【DL--21】深度学习57个专业术语

激活函数(Activation Function)为了让神经网络能够学习复杂的决策边界(decision boundary),我们在其一些层应用一个非线性激活函数。最常用的函数包括 sigmoid、tanh、ReLU(Rectified Linear Unit 线性修正单元) 以及这些函数的变体。AdadeltaAdadelta 是一个基于梯度下降的学习算法,可以随时间调整适应每个参数的学习率。它...
阅读(1334) 评论(0)

[置顶] 【DL--20】各种编程语言的深度学习库整理

本文总结了Python、Matlab、CPP、Java、JavaScript、Lua、Julia、Lisp、Haskell、.NET、R等语言的深度学习库,赶紧收藏吧!Python1. Theano是一个python类库,用数组向量来定义和计算数学表达式。它使得在Python环境下编写深度学习算法变得简单。在它基础之上还搭建了许多类库。 1.Keras是一个简洁、高度模块化的神经网络库,它的设计参考...
阅读(976) 评论(0)

[置顶] 【DL--19】R语言---python 使用MLP分类 MNIST 手写数字

R语言版本:rm(list=ls()) gc()library(keras) library(tensorflow) # #加载keras中 内置的 mnist 数据集 data<-dataset_mnist() #分离训练和测试文件 train_x<-data$train$x train_y<-data$train$y test_x<-data$test$x test_y<-data$test$y...
阅读(157) 评论(0)

[置顶] 【DL--18】Windows下基于Anaconda的Tensorflow环境配置

1、Anaconda下载安装:https://www.continuum.io/downloads 版本为:Anaconda3,for windows,64bit(tensorflow在windows下只支持Python 3.5以上、amd64)2、Anaconda使用:打开“开始目录”,找到Anaconda/Anaconda prompt,以管理员权限运行,否则会出现permission den...
阅读(180) 评论(0)

[置顶] 【DL--17】在R中使用Keras和TensorFlow

随着 采用R基于tensorflow (CPU 和 GPU 兼容)的Keras 库的发布,R语言也进军深度学习啦,下面开始安装TensorFlow 和Keras ,因为Keras 包含了TensorFlow ,我们只需要安装Keras即可。一、安装: install.packages("devtools") devtools::install_github("rstudio/keras...
阅读(1670) 评论(0)

[置顶] 【DL--16】深度学习架构清单

1. AlexNet AlexNet 是首个深度架构,它由深度学习先驱 Geoffrey Hinton 及其同僚共同引入。AlexNet 是一个简单却功能强大的网络架构,为深度学习的开创性研究铺平了道路。论文:ImageNet Classification with Deep Convolutional Neural Networks 链接:https://papers.nips.cc/pape...
阅读(128) 评论(0)

[置顶] 【mysql 卡死处理】MYSQL--慢查询卡死等处理

命令: show processlist; 如果是root帐号,你能看到所有用户的当前连接。如果是其它普通帐号,只能看到自己占用的连接。 show processlist;只列出前100条,如果想全列出请使用show full processlist; mysql> show processlist;发现可以线程。 可以kill 线程号;show OPEN TABLES where...
阅读(1278) 评论(0)

[置顶] 【R语言 矩阵相乘】R语言矩阵相乘100次

【D1 D2】2*1 【T1 T2】1*2我想让帮做这么一个简单的矩阵,要求D1和D2随机的变动rm(list=ls()) gc()options(scipen = 2000) #################定义TT矩阵(1*2) TT <- matrix(c(1,3),1,2)DD<- matrix(c(1,2),2,1) result1 <- DD %*% TT#############...
阅读(1111) 评论(0)

[置顶] 【python 爬虫】身份证归属地爬虫

输入数据:身份证号码 # -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencoding('utf-8') import time import requests from lxml import etree time1=time.time() import pandas as pd df = pd.read_csv('F:/shen...
阅读(545) 评论(0)

[置顶] 【python 爬虫】selenium爬虫模块 phantomjs如何加代理IP

phantomjs在初始化WebDriver时就没有留proxy参数 所以可以像下图一样改一下phantomjs类的源码,就可以在phantomjs中传入proxy参数了修改 下面的代码:class WebDriver(RemoteWebDriver): """ Wrapper to communicate with PhantomJS through Ghostdriver....
阅读(772) 评论(0)

[置顶] 【ML--11】数据挖掘岗位需要具备的3 种基本能力

1. 工程能力( 1 )编程基础:需要掌握一大一小两门语言,大的指 C++ 或者 Java ,小的指Python 或者 shell 脚本;需要掌握基本的数据库语言;建议:MySQL + python + C++ ;语言只是一种工具,看看语法就好;推荐书籍:《C++ primer plus 》( 2 )开发平台: Linux ;建议:掌握常见的命令,掌握 Linux 下的源码编译原理;推荐书籍:《Li...
阅读(1309) 评论(0)

[置顶] 【ML--10】常用的机器学习&数据挖掘知识(点)总结

Basis(基础):MSE(Mean Square Error 均方误差), LMS(LeastMean Square 最小均方), LSM(Least Square Methods 最小二乘法), MLE(MaximumLikelihood Estimation最大似然估计), QP(Quadratic Programming 二次规划), CP(Conditional Probabil...
阅读(2402) 评论(0)

[置顶] 【R语言 聚类比较】k-means 与dbscan

DBSCAN的算法是将所有点标记为核心点、边界点或噪声点,将任意两个距离小于eps的核心点归为同一个簇。任何与核心点足够近的边界点也放到与之相同的簇中。下面我们来使用R语言中的fpc包来对上面的例子实施密度聚类。其中eps参数设为0.6,即两个点之间距离小于0.6则归为一个簇,而阀值MinPts设为4。从上图可以看到,DBSCAN方法很好的划分了两个簇。其中要注意参数eps的设置,如果eps设置过大...
阅读(2342) 评论(0)

[置顶] 【Python 密度聚类】Python实现DBScan

输入: /* 788points.txt */ 15.55,28.65 14.9,27.55 14.45,28.35 14.15,28.8 13.75,28.05 13.35,28.45 13,29.15 13.45,27.5 13.6,26.5 12.8,27.35 12.4,27.85 12.3,28.4 12.2,28.65 13.4,25.1 12.95,25...
阅读(937) 评论(2)

[置顶] 【python StringIO模块】感受内存文件的速度优势

此模块主要用于在内存缓冲区中读写数据。模块是用类编写的,只有一个StringIO类,所以它的可用方法都在类中。此类中的大部分函数都与对文件的操作方法类似。import StringIO output = StringIO.StringIO() output.write('Hello World!') contents = output.getvalue() print contents output...
阅读(1189) 评论(0)

[置顶] 【ML--09】决策树算法Decision Tree

一、三个决策树算法介绍 @1、信息增益:ID3 选择具有最高信息增益的属性作为节点N的分裂属性。举个例子: 首先使用(8.1)式计算D中元组分类所需要的期望信息:Info(D)=-log₂(9/14)(9/14)-log₂(5/14)(5/14)=0.94下一步计算每个属性的期望信息需求。从属性age开始,需要对age的每个类考察Yes和NO元组的分布。对于age的类“youth”,有2个ye...
阅读(1917) 评论(0)

[置顶] 【python 手机号码归属地】手机号码归属地获取

利用python第三方包phone# encoding: utf-8 import time import pandas as pd import sys reload(sys) sys.setdefaultencoding('utf-8') import json from phone import Phone time1 = time.time()province1=[] phone_type1...
阅读(1572) 评论(0)

[置顶] 【验证码识别】验证码识别一般思路

1、在计算机中彩色图片是由像素点组成,像素点由R(红)G(绿)B(蓝)三原色组成,在验证码识别过程中,一般把需要识别的字符称为前景,其他的称为背景2、灰度化:即将彩色图像转化为灰度图像,一般有以下三种方法 1)最大值法:命R、G、B的值等于三者中最大值,即R=G=B=max(R,G,B),这种方法会形成亮度很高的图像 2)平均值法:命R、G、B的值等于三者的平均值,即R=G=B=avg(R,G...
阅读(1378) 评论(0)

[置顶] 【Tesseract-OCR】Tesseract训练中文字体识别

字体训练我准备了一份含汉语7000字和大小写英文字母和数字的文档.如果你需要训练所有中文的话,请将所有docx文件内所有字改成你要训练的字体。然后转化成tif格式的图片。步骤(转自tesseract的github)1、Prepare training text. 准备你的训练文本2、Render text to image + box file. (Or create hand-made box...
阅读(3311) 评论(0)

[置顶] 【Tesseract-OCR】玩转OCR中文识别

一、准备工作: 1、下载Tesseract-OCR引擎,注意要3.0以上才支持中文哦,按照提示安装就行。 2、下载chi_sim.traindata字库。要有这个才能识别中文。下好后,放到Tesseract-OCR项目的tessdata文件夹里面。 3、下载jTessBoxEditor,这个是用来训练字库的,下好后,放到Tesseract-OCR项目下面。 以上的几个在百度都能找到下载,就不...
阅读(2274) 评论(0)

[置顶] 【R 语言爬虫】rvest 包实战链家爬虫

rvest包简介rvest包是Hadley Wickham大神开发的一个专门用于网络数据抓取的R语言包,目前的发行版本为0.3.2,关于rvest包的描述以及用法可参考rvest帮助文档,花上一点时间阅读帮助文档,相信你就可以写出自己的爬虫了。help(package=“rvest”)rvest帮助文档: http://127.0.0.1:17483/library/rvest/html/00Ind...
阅读(3140) 评论(0)

[置顶] 【ML--08】线性判别法和距离判别法

线性判别法的原理 用一条直线来划分学习集 然后根据待测点在直线的哪一边决定它的分类。rm(list=ls()) G=c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,2,2) x1=c(-1.9,-6.9,5.2,5.0,7.3,6.8,0.9,-12.5,1.5,3.8,0.2,-0.1,0.4,2.7,2.1,-4.6,-1.7,-2.6,2.6,-...
阅读(2149) 评论(0)

[置顶] 【DL--15】运行一个TensorFlow

$ python >>> import tensorflow as tf >>> hello = tf.constant('Hello, TensorFlow!') >>> sess = tf.Session() >>> print sess.run(hello) Hello, TensorFlow! >>> a = tf.constant(10) >>> b = tf.constant(32) >...
阅读(1267) 评论(0)

[置顶] 【DL--14】Keras案例学习-- CNN做手写字符分类(mnist_cnn )

'''Trains a simple convnet on the MNIST dataset.Gets to 99.25% test accuracy after 12 epochs (there is still a lot of margin for parameter tuning). 16 seconds per epoch on a GRID K520 GPU. '''from __fu...
阅读(384) 评论(0)

[置顶] 【DL--13】CNN 两大特性(局部连接、权重共享)

在多层感知器模型中,神经元通常是全部连接,参数较多。而卷积层的参数较少,这也是由卷积层的主要特性即局部连接和共享权重所决定。局部连接:每个神经元仅与输入神经元的一块区域连接,这块局部区域称作感受野(receptive field)。在图像卷积操作中,即神经元在空间维度(spatial dimension,即上图示例H和W所在的平面)是局部连接,但在深度上是全部连接。对于二维图像本身而言,也是局部像素...
阅读(524) 评论(0)

[置顶] 【DL--12】LeNet5的基本结构

一种典型的用来识别数字的卷积网络是LeNet-5(效果和paper等见这)。当年美国大多数银行就是用它来识别支票上面的手写数字的。能够达到这种商用的地步,它的准确性可想而知。毕竟目前学术界和工业界的结合是最受争议的。1.C1层是一个卷积层(为什么是卷积?卷积运算一个重要的特点就是,通过卷积运算,可以使原信号特征增强,并且降低噪音),由6个特征图Feature Map构成。特征图中每个神经元与输入中5...
阅读(189) 评论(0)

[置顶] 【DL--12】Theano入门

Theano是一个Python库,专门用于定义、优化、求值数学表达式,效率高,适用于多维数组。特别适合做机器学习。一般来说,使用时需要安装python和numpy. 首先回顾一下机器学习的东西,定义一个模型(函数)f(x;w) x为输入,w为模型参数,然后定义一个损失函数c(f),通过数据驱动在一堆模型函数中选择最优的函数就是训练training的过程,在机器学习中训练一般采用梯度下降法gradie...
阅读(136) 评论(0)

[置顶] 【DL--11】win7 64安装theano的简单方法

参考了很多网上的方法,总结出最简单的方法,作为备忘录。    第一步:安装MinGW      注意这一步一定要安装mingw64位,要不然在后面编译theano的函数时可能编译不过。   mingw64我下载的传到我的csdn资源,里面含有gcc,g++等常用编译器。   链接如下:   http://download.csdn.net/detail/leehomwanglj/864...
阅读(153) 评论(0)

[置顶] 【ML--07】机器学习知识点及其算法实现sklearn

以下10种算法是现在最流行的机器学习算法(含python代码),几乎可以解决绝大部分的问题。1.线性回归 Linear Regression线性回归是利用连续性变量来估计实际数值(例如房价,呼叫次数和总销售额等)。我们通过线性回归算法找出自变量和因变量间的最佳线性关系,图形上可以确定一条最佳直线。这条最佳直线就是回归线。这个回归关系可以用Y=aX+b 表示。Python 代码:#Import Lib...
阅读(305) 评论(0)

[置顶] 【DL--10】AI我深度上,TensorFlow安装教程

什么是TensorFlow?TensorFlow 是谷歌开发的第二个机器学习框架,可用于设计、构建和训练深度学习模型。你可以使用 TensorFlow 库进行数值计算,这本身似乎并没有什么特别的,但这些计算是使用数据流图完成的。在这些图中,节点表示数学运算,而边则表示数据——通常是多维的数组或张量,在这些边之间传递。一直尝试在Linux 下安装好python 环境的 TensorFlow ,无奈次次...
阅读(155) 评论(0)

[置顶] 【python 图像处理】Python图像处理模块pillow子模块Image用法精要

Image是pillow库中一个非常重要的模块,提供了大量用于图像处理的方法。使用该模块时,首先需要导入。>>> from PIL import Image接下来,我们通过几个示例来简单演示一下这个模块的用法。 (1)打开图像文件>>> im = Image.open('sample.jpg')(2)显示图像>>> im.show()(3)查看图像信息>>> im.format #查看图像格式‘...
阅读(223) 评论(0)

[置顶] 【python 图像处理】Python 图像处理库 Pillow 入门

Pillow是Python里的图像处理库(PIL:Python Image Library),提供了了广泛的文件格式支持,强大的图像处理能力,主要包括图像储存、图像显示、格式转换以及基本的图像处理操作等。1)使用 Image 类PIL最重要的类是 Image class, 你可以通过多种方法创建这个类的实例;你可以从文件加载图像,或者处理其他图像, 或者从 scratch 创建。要从文件加载图像,可...
阅读(324) 评论(0)

[置顶] 【DL--09】神经网络,需要知道的数学公式

推导数学公式:...
阅读(140) 评论(0)

[置顶] 【mysql 错误】1209 - The MySQL server is running with the --read-only option so it cannot execute this s

1209 - The MySQL server is running with the–read-only option so it cannot execute this statement一般这个错误有两种原因:1.连到从库了。从库一般设置为只读。2.主库的read_only参数被修改为1为了先解决问题,先去查询主库上read_only参数的值。果然read_only被设置为1.手工修改为0后,...
阅读(366) 评论(0)

[置顶] 【ML--06】主成分分析PCA

一、什么是主成分? 主成分分析(Principal Component Analysis, PCA)在做的事情:找到原始变量的线性组合,也就是所谓的主成分,使得组合后得到变量的方差最大化。二、主成分分析与因子分析有什么区别? 因子分析是把变量表示成各公因子的线性组合; 主成分分析中则是把主成分表示成各变量的线性组合。sklearn 实现PCA# coding=utf-8 import sys...
阅读(203) 评论(0)

[置顶] 【DL--08】深度学习 用于处理图像的CNN

什么是CNN Covolutional Neural Network,卷积神经网络 卷积是指将一些数线性加权,卷起来一维卷积: ● 三个数a1、a2、a3 ● 权值w1、w2、w3 ● 卷起来,w1*a1+w2*a2+w3*a3 ● 卷积窗口大小为3二维卷积: ● 九个数a11、a12、a13、a21、a22、a23、a31、a32、a33 ● 权值w11、w...
阅读(118) 评论(0)

[置顶] 【python 图像压缩算法】opencv图像压缩

插值方法: CV_INTER_NN - 最近邻插值, CV_INTER_LINEAR - 双线性插值 (缺省使用) CV_INTER_AREA - 使用象素关系重采样。当图像缩小时候,该方法可以避免波纹出现。当图像放大时,类似于 CV_INTER_NN 方法.. CV_INTER_CUBIC - 立方插值. 函数 cvResize 将图像 src 改变尺寸得到与 dst 同样大小。若设定...
阅读(856) 评论(0)

[置顶] 【python 第三方包的安装】第三方包下载网站

下载网址 http://www.lfd.uci.edu/~gohlke/pythonlibs/有了这个以后,要用哪个库,再也不用到处找过来找过去了。而且都是编译好的whl文件,简单粗暴!...
阅读(431) 评论(0)

[置顶] 【数据科学】总结 --数据工作的科普

一、数据获取1.爬虫:这个不用多解释了,就是从网页上爬取数据,比如爬取一个京东的三级品类的数据、爬拉勾网的职位信息数据。这个主要是网络编程,细节点主要是header、cookie、get/post请求、失败重试、验证码、重定向等,总之除了把数据从网页上抽取出来就是如何伪装自己是一个“人”在请求而不是机器自动发送的请求。至于破解验证码,简单的ocr能搞定(就是慢),自己写一个图像识别的算法也可以去尝试...
阅读(141) 评论(0)

[置顶] 【excel 函数】常用的Excel函数

函数可以被我们想象成一个盒子,专门负责将输入转换成输出,不同的函数对应不同的输出。清洗处理类:trim、concatenate、replace、substitute、left/right/mid、len/lenb、find、search、text关联匹配类:lookup、vlookup、index、match、row、column、offset逻辑运算类:if、and、or、is系列计算统计类:su...
阅读(113) 评论(0)

[置顶] 【mysql 数据迁移】mysql中同一服务器,要从一个数据库里复制一个表到另一个数据库

mysql 同一个服务中,两个数据库A,Bcreate table b.table1 as select * from a.table1...
阅读(207) 评论(0)

[置顶] 【mysql 数据迁移】 mysql 把数据库从一个服务器复制到另一个服务器

1,把sampdb数据库从本地主机复制到远程主机121.121.121.121上的mysql服务上去。 mysqldump –databases sampdb | mysql -h 121.121.121.121 2,如果本地主机无法访问远程mysql服务器但能够通过登录远程主机的办法访问它,就可以通过ssh来远程调用mysql程序。 mysqldump –databases sampdb |...
阅读(1705) 评论(0)

[置顶] 【R语言 数据分析】多重共线性问题

1、什么是多重共线性? 多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关关系或高度相关关系而使模型估计失真或难以估计准确。2、多重共线性对回归模型的影响@1、完全共线性下参数估计量不存在 @2、近似共线性下OLS估计量非有效 @3、参数估计量经济含义不合理 @4、变量的显著性检验失去意义,可能将重要的解释变量排除在模型之外 @5、模型的预测功...
阅读(2577) 评论(0)

[置顶] 【Hadoop--04】Hadoop读文件

1、客户端向NameNode发送读取请求2、NameNode返回文件的所有block和这些block所在的DataNodes(包括复制节点)3、客户端直接从DataNode中读取数据,如果该DataNode读取失败(DataNode失效或校验码不对),则从复制节点中读取(如果读取的数据就在本机,则直接读取,否则通过网络读取)...
阅读(460) 评论(0)

[置顶] 【Hadoop--03】HDFS写文件

1.客户端将文件写入本地磁盘的N#x4E34;时文件中2.当临时文件大小达到一个block大小时,HDFS client通知NameNode,申请写入文件3.NameNode在HDFS的文件系统中创建一个文件,并把该block id和要写入的DataNode的列表返回给客户端4.客户端收到这些信息后,将临时文件写入DataNodes4.1 客户端将文件内容写入第一个DataNode(一般以4kb为单...
阅读(349) 评论(0)

[置顶] 【Hadoop--02】Hadoop HDFS是什么?

Hadoop - HDFS简介 Hadoop Distributed File System,分布式文件系统架构Block数据&##x5757;基本存储单位,一般大小为64M(配置大的块主要是因为:1)减少搜寻时间,一般硬盘传输速率比寻道时间要快,大的块可以减少寻道时间;2)减少管理块的数据开销,每个块都需要在NameNode上有对应的记录;3)对数据块进行读写,减少建立网络的连接成本)一个大文件...
阅读(155) 评论(0)

[置顶] 【Hadoop--01】Hadoop简介

Hadoop可运行于一般的商用服务器上,具有高容错、高可靠性、高扩展性等特点特别适合写一次,读多次的场景。适合 大规模数据 流式数据(写一次,读多次) 商用硬件(一般硬件)不适合 低延时的数据访问 大量的小文件 频繁修改文件(基本就是写1次)Hadoop架构HDFS: 分布式文件存储 YARN: 分布式资源管理 MapReduce: 分布式计算 Others: 利用YARN的资源管...
阅读(2205) 评论(0)

[置顶] 【DL--07】深度学习基本概念—epochs

epochs 一个epoch是指把所有训练数据完整的过一遍 真的不是很想解释这个词,但是新手问的还挺多的…… 简单说,epochs指的就是训练过程中数据将被“轮”多少次,就这样。...
阅读(2416) 评论(0)

[置顶] 【DL--06】深度学习基本概念—batch

batch这个概念与Keras无关,老实讲不应该出现在这里的,但是因为它频繁出现,而且不了解这个技术的话看函数说明会很头痛,这里还是简单说一下。深度学习的优化算法,说白了就是梯度下降。每次的参数更新有两种方式。第一种,遍历全部数据集算一次损失函数,然后算函数对各个参数的梯度,更新梯度。这种方法每更新一次参数都要把数据集里的所有样本都看一遍,计算量开销大,计算速度慢,不支持在线学习,这称为Batch...
阅读(1830) 评论(0)

[置顶] 【DL--05】深度学习基本概念—函数式模型

函数式模型函数式模型算是本文档比较原创的词汇了,所以这里要说一下在Keras 0.x中,模型其实有两种,一种叫Sequential,称为序贯模型,也就是单输入单输出,一条路通到底,层与层之间只有相邻关系,跨层连接统统没有。这种模型编译速度快,操作上也比较简单。第二种模型称为Graph,即图模型,这个模型支持多输入多输出,层与层之间想怎么连怎么连,但是编译速度慢。可以看到,Sequential其实是G...
阅读(1160) 评论(0)

[置顶] 【DL--04】深度学习基本概念—data_format

data_format这是一个无可奈何的问题,在如何表示一组彩色图片的问题上,Theano和TensorFlow发生了分歧,’th’模式,也即Theano模式会把100张RGB三通道的16×32(高为16宽为32)彩色图表示为下面这种形式(100,3,16,32),Caffe采取的也是这种方式。第0个维度是样本维,代表样本的数目,第1个维度是通道维,代表颜色通道数。后面两个就是高和宽了。这种thea...
阅读(1016) 评论(0)

[置顶] 【DL--03】深度学习基本概念—张量

张量张量,或tensor,是本文档会经常出现的一个词汇,在此稍作解释。使用这个词汇的目的是为了表述统一,张量可以看作是向量、矩阵的自然推广,我们用张量来表示广泛的数据类型。规模最小的张量是0阶张量,即标量,也就是一个数。当我们把一些数有序的排列起来,就形成了1阶张量,也就是一个向量如果我们继续把一组向量有序的排列起来,就形成了2阶张量,也就是一个矩阵把矩阵摞起来,就是3阶张量,我们可以称为一个立方体...
阅读(2320) 评论(0)

[置顶] 【DL--02】深度学习基本概念--符号计算

符号计算Keras的底层库使用Theano或TensorFlow,这两个库也称为Keras的后端。无论是Theano还是TensorFlow,都是一个“符号式”的库。因此,这也使得Keras的编程与传统的Python代码有所差别。笼统的说,符号主义的计算首先定义各种变量,然后建立一个“计算图”,计算图规定了各个变量之间的计算关系。建立好的计算图需要编译以确定其内部细节,然而,此时的计算图还是一个“空...
阅读(417) 评论(0)

[置顶] 【DL--01】深度学习 揭开DL的神秘面纱

什么是深度学习 深度学习=深度神经网络+机器学习 人工智能 > 机器学习 > 表示学习 > 深度学习神经元模型 输入信号、加权求和、加偏置、激活函数、输出 全连接层 输入信号、输入层、隐层(多个神经元)、输出层(多个输出,每个对应一个分类)、目标函数(交叉熵) 待求的参数:连接矩阵W、偏置b 训练方法:随机梯度下降,BP算法(后向传播)Python中深度学习实现:Keras 官网...
阅读(3622) 评论(0)

[置顶] 【ML--05】第五课 如何做特征工程和特征选择

一、如何做特征工程? 1.排序特征:基于7W原始数据,对数值特征排序,得到1045维排序特征 2. 离散特征:将排序特征区间化(等值区间化、等量区间化),比如采用等量区间化为1-10,得到1045维离散特征 3. 计数特征:统计每一行中,离散特征1-10的个数,得到10维计数特征 4. 类别特征编码:将93维类别特征用one-hot编码 5. 交叉特征:特征之间两两融合,x+y、x-y、x...
阅读(1596) 评论(0)

[置顶] 【ML--04】第四课 logistic回归

1、什么是逻辑回归?当要预测的y值不是连续的实数(连续变量),而是定性变量(离散变量),例如某个客户是否购买某件商品,这时线性回归模型不能直接作用,我们就需要用到logistic模型。逻辑回归是一种分类的算法,它用给定的输入变量(X)来预测二元的结果(Y)(1/0,是/不是,真/假)。我们一般用虚拟变量来表示二元/类别结果。你可以把逻辑回归看成一种特殊的线性回归,只是因为最后的结果是类别变量,所以我...
阅读(1526) 评论(0)

[置顶] 【python 爬虫】python淘宝爬虫实战(selenum+phontomjs)

1、需求目标 : 进去淘宝页面,搜索耐克关键词,抓取 商品的标题,链接,价格,城市,旺旺号,付款人数,进去第二层,抓取商品的销售量,款号等。2、结果展示 3、源代码# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import time import pandas as pd time1=ti...
阅读(1919) 评论(0)

[置顶] 【hadoop Sqoop】Sqoop从mysql导数据到hdfs

1.下载sqoop安装包wget https://mirrors.tuna.tsinghua.edu.cn/apache/sqoop/1.4.6/sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz2.解压安装包tar -xzvf /sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz3.配置hadoopmv sqoop-1.4.6....
阅读(674) 评论(0)

[置顶] 【Hive Hbase】Hbase与Hive的区别与联系

问题导读:Hive与Hbase的底层存储是什么? hive是产生的原因是什么? habase是为了弥补hadoop的什么缺陷?共同点: 1.hbase与hive都是架构在hadoop之上的。都是用hadoop作为底层存储区别: 2.Hive是建立在Hadoop之上为了减少MapReduce jobs编写工作的批处理系统,HBase是为了支持弥补Hadoop对实时操作的缺陷的项目 。3.想象你...
阅读(1295) 评论(0)

[置顶] 【hadoop Sqoop】数据迁移工具 sqoop 入门

数据迁移工具sqoop入门首先,先简单说明下sqoop是什么,sqoop 即 SQL to Hadoop ,是一款方便的在传统型数据库与Hadoop之间进行数据迁移的工具,充分利用MapReduce并行特点以批处理的方式加快数据传输,发展至今主要演化了二大版本,sqoop1和sqoop2。 那么为什么选择sqoop呢? 1,高效可控的利用资源,任务并行度,超时时间。 2,数据类型映射与转...
阅读(1639) 评论(0)

[置顶] 【hadoop Sqoop】Sqoop从mysql导数据到hive

1、概述Sqoop是一个实现在关系型数据库和Hive进行数据交换的工具。 主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql…)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。2、参数hive导入参数   --hive-home...
阅读(242) 评论(0)

[置顶] 【hadoop Sqoop】Sqoop 1.4.6 安装

第一步:下载Sqoop选择 (sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz) http://apache.fayea.com/sqoop/1.4.6/第二步:拷贝至安装目录并解压缩tar zxf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz第三步:目录名过长,修改为 sqoop-1.4.6mv sqoop-1.4.6....
阅读(133) 评论(0)

[置顶] 【ML--03】 第三课 机器学习基本概念

什么是机器学习 研究如何通过计算的手段,利用经验来改善系统自身的性能 通俗来讲,让代码学着干活● 特征:自变量 ● 标签:因变量学习的种类 ● 有监督学习:提供标签,分类、回归 ● 无监督学习:无标签,聚类 ● 增强学习:也称强化学习,马尔科夫决策过程(Markov Decision Processes,MDP) ● 主动学习:边学习边标注 ● 迁移学习:从一...
阅读(153) 评论(0)

[置顶] 【linux 命令】ll 命令不管用的问题

[root@node1 ~]# find / -name mysql 查看mysql的安装路径 /usr/lib64/mysql /usr/share/mysqlll 命令不管用的问题:$ vim ~/.bashrc alias ll=’ls -l’ #加入此行 ps:加入后肯能无法当场起作用, 执行该句: source ~/.bashrc...
阅读(249) 评论(0)

[置顶] 【大数据 BI】传统BI流程

传统BI流程...
阅读(2183) 评论(0)

[置顶] 【大数据 hadoop】hadoop生态圈

adoop生态圈hadoop提供的功能,利用服务器集群,根据用户的自定义业务逻辑,对海量数据进行分布式处理核心组件: A、HDFS 分布式文件系统 B、YARN 运算资源调度系统 C、MAPREDUCE 分布式运算编程框架生态圈sprakstormflumehivehbasehadoop在大数据、云计算中的位置和关系云计算是分布式计算、并行计算、网络计算、多核计算、网络存储、虚拟化...
阅读(750) 评论(0)

[置顶] 【ML--02】第二课 线性回归

1、重点归纳 回归分析就是利用样本(已知数据),产生拟合方程,从而(对未知数据)进行预测 用途:预测,判别合理性 例子:利用身高预测体重;利用广告费用预测商品销售额;等等. 线性回归分析:一元线性;多元线性;广义线性 非线性回归分析 困难:选定变量(多元),避免多重共线性,观察拟合方程,避免过度拟合,检验模型是否合理2、一元线性回归: 首先计算相关系数确定自变量与因变量是否相关。...
阅读(1684) 评论(0)

[置顶] 【ML--01】第一课 机器学习概述

接下来打算整理下一套机器学习的过程和学习文档分享给大家,共同学习进步~我理解的机器学习(Machine Learing,ML)1、、机器学习是对能通过经验自动改进的计算机算法的研究。从数据中自动分析获得规律,并利用规律对未知数据进行预测的算法。机器学习以算法为主,需要一定的数学素养,最终目标将机器学习算法用于大数据挖掘。2、机器学习是人工智能研究的核心内容。它的应用已遍及人工智能的各个分支。数据挖掘...
阅读(1052) 评论(0)

[置顶] 【jquery 走进web】Web进阶 比JS更方便的JQuery

简介 ● JQuery是一个JS库 ● 极大地简化了JS编程 ● JQuery很容易学习引入 ● 下载下来并引入:http://jquery.com/download/ ● 直接引用CDN: http://cdn.bootcss.com/jquery/2.1.4/jquery.min.js语法 (document).ready(function());(documen...
阅读(784) 评论(0)

[置顶] 【js 走进web】Web基础 网页的关节JS

什么是JS HTML中的脚本编程语言:JavaScript,但和Java毛关系没有这都不重要,重要的是: JS决定了如何动态改变HTML元素使用JS 1. 在html中使用js 2. 引入外部.js文件内容 ● document.write() ● 变量var:数值、字符、数组、字典/对象 ● document.getElementById() ● oncl...
阅读(853) 评论(0)

[置顶] 【python 爬虫】Python爬虫技术分享

1、什么是“爬虫”?简单来说,写一个从web上获取需要数据并按规定格式存储的程序就叫爬虫;爬虫理论上步骤很简单,第一步获取html源码,第二步分析html并拿到数据。但实际操作,老麻烦了~2、用Python写“爬虫”有哪些方便的库常用网络请求库: requests、urllib、urllib2、urllib和urllib2是Python自带模块,requests是第三方库常用解析库和爬虫框架: Be...
阅读(395) 评论(0)

[置顶] 【CSS 走进web】Web基础 网页的血肉CSS

什么是CSS 层叠样式表:Cascading Style Sheets这都不重要,重要的是: CSS决定了如何显示HTML元素基本结构选择器 + 样式(key: value) --------------------------------------------------------------------------------p { color: red; font-size: 20px...
阅读(676) 评论(0)

[置顶] 【大数据 hadoop】大数据框架Hadoop主要模块介绍

本文涉及到的所有模块,都是属于Apache组织,不包括其他第三方的模块。核心模块:Hadoop Common: 包括Hadoop常用的工具类,由原来的Hadoop core部分更名而来。主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。它们为在通用硬件上搭建云计算环境提供基本的服务,并为运行在该平台上的软件开发提供了所需的...
阅读(420) 评论(0)

[置顶] 【html 走进web】Web基础 网页的骨骼HTML

什么是HTML 超文本标记语言:Hyper Text Markup Language这都不重要,重要的是: HTML是Web网页的基本组成部分 HTML中定义的元素,决定了网页的内容和结构Python:编程语言,编写程序 HTML:标记语言,像画画一样,画出网页的内容基本结构 --------------------------------------------------------------...
阅读(1377) 评论(0)

[置顶] 【python 走进NLP】NLP WordEmbedding的概念和实现

背景 如何表示词语所包含的语义?苹果?水果?Iphone? 苹果、梨子,这两个词相关吗?语言的表示 符号主义:Bags-of-word,维度高、过于稀疏、缺乏语义、模型简单 分布式表示:Word Embedding,维度低、更为稠密、包含语义、训练复杂Word Embedding 核心思想:语义相关的词语,具有相似的上下文环境,例如, 苹果和梨子 所做的事情:将每个词语训练成,词向量实...
阅读(1945) 评论(0)

[置顶] 【python 走进NLP】 NLP 使用jieba分词处理文本

一、NLP介绍概念 Natural Language Processing/Understanding,自然语言处理/理解日常对话、办公写作、上网浏览希望机器能像人一样去理解,以人类自然语言为载体的文本所包含的信息,并完成一些特定任务内容 中文分词、词性标注、命名实体识别、关系抽取、关键词提取、信息抽取、依存分析、词嵌入……应用 篇章理解、文本摘要、情感分析、知识图谱、文本翻译、问答系统、聊天机器...
阅读(1223) 评论(0)

[置顶] 【R语言 数据探索】实战 Diamonds数据集探索

1.主要内容查看数据 diamonds 截取子集 set.seed(123) diamonds <- diamonds[sample(nrow(diamonds), 1000),]查看概要 summary()、str()探索 价格和克拉的关系:geom_point(),映射颜色和形状价格分布:geom_histogram(),映射填充、position="fill"/"dodge"透明度分布:geo...
阅读(575) 评论(0)

[置顶] 【python mysql】数据库 使用Python操作MySQL

MySQLdb 安装:pip install mysql-python加载包 -------------------------------------------------------------------------------- import MySQLdb import MySQLdb.cursors ------------------------------------------...
阅读(1549) 评论(0)

[置顶] 【web服务器搭建】用MAMP和WAMP搭建Web环境

Web环境 Web服务器:Apache、Nginx,处理Web请求 数据库:MySQL,存储和管理数据 后端:PHP Web服务启动后,就可以在浏览器中访问根目录中的网站项目 MAMP:Mac,Apache,MySQL,PHP,https://www.mamp.info/en/ WAMP:Windows,Apache,MySQL,PHP,http://www.wampserver.com/...
阅读(1147) 评论(0)

[置顶] 【python 文本统计】西游记用字统计

1、数据 xyj.txt,《西游记》的文本,2.2MB 致敬吴承恩大师,4020行(段)2、目标 统计《西游记》中: 1. 共出现了多少个不同的汉字; 2. 每个汉字出现了多少次; 3. 出现得最频繁的汉字有哪些。3、涉及内容: 1. 读文件; 2. 字典的使用; 3. 字典的排序; 4. 写文件4、效果5、源代码# coding:utf8impor...
阅读(1519) 评论(0)

[置顶] 【zookeeper 安装教程】centos 5.8搭建环境

所需软件:VM 虚拟机 centos系统 jdk 1.6或者以上 zookeeper-3.4.6.tar.gz   这里至少需要三台server,不然的话这里zookeeper安装的时候,测试会报至少需要三台server,相关可以查看zookeeper.out(测试环境下)       首先下载jdk的rpm包,分别上传到三个虚拟机上并安装。     1.先查看系统是否存在jdk的相...
阅读(591) 评论(0)

[置顶] 【linux 定时器】crontab 的用法

基本格式 : *  *  *  *  *  command 分  时  日  月  周  命令 第1列表示分钟1~59 每分钟用*或者 */1表示 第2列表示小时0~23(0表示0点) 第3列表示日期1~31 第4列表示月份1~12 第5列标识号星期0~6(0表示星期天) 第6列要运行的命令 crontab文件的一些例子: 30 21 * * * /usr/local/etc/r...
阅读(892) 评论(0)

[置顶] 【linux iptable】iptable练习

#查看帮助 iptables -h man iptables列出iptables规则 iptables -L -n 列出iptables规则并显示规则编号 iptables -L -n --line-numbers列出iptables nat表规则(默认是filter表) iptables -L -n -t nat清除默认规则(注意默认是filter表,如果对nat表操作要加-t nat) #清楚所...
阅读(685) 评论(0)

[置顶] 【linux 常用命令】常用命令整理

linux的命令操作 1、日常操作命令 **查看当前所在的工作目录 pwd**查看当前系统的时间 date**查看有谁在线(哪些人登陆到了服务器) who 查看当前在线 last 查看最近的登陆历史记录 2、文件系统操作 ** ls / 查看根目录下的子节点(文件夹和文件)信息 ls -al -a是显示隐藏文件 -l是以更详细的列表形式显示**切换目录 cd /home**创建文...
阅读(317) 评论(0)

[置顶] 【linux ssh免密码登录】linux 免密码登录

**配置主机之间的免密ssh登陆 vi /etc/hosts 127.0.0.1 localhost localhost.localdomain localhost4 localhost4.localdomain4 ::1 localhost localhost.localdomain localhost6 localhost6.localdomain6 192.168....
阅读(348) 评论(0)

[置顶] 【linux 软件安装】linux 安装tomcat

安装tomcat1.上传apache-tomcat-7.0.68.tar.gz到Linux上 2.解压tomcat tar -zxvf apache-tomcat-7.0.68.tar.gz -C /usr/local/ 3.启动tomcat /usr/local/apache-tomcat-7.0.68/bin/startup.sh bin/shutdown.sh #停止tomcat...
阅读(683) 评论(0)

[置顶] 【linux 软件安装】nginx 安装

安装nginx tar -zxvf nginx-1.8.1.tar.gz -C /usr/local/src 3.3.编译nginx #进入到nginx源码目录 cd /usr/local/src/nginx-1.8.1#检查安装环境,并指定将来要安装的路径 ./configure --prefix=/usr/local/nginx#缺包报错 ./configure: error: C compil...
阅读(297) 评论(0)

[置顶] 【linux 命令】Linux 下常用压缩文件的解压、压缩

常用压缩包解压命令整理 Linux 后缀为 .tar.gz 格式的文件-解压 命令:tar zxvf XXXXXX.tar.gzLinux 后缀为 .bz2 格式的文件-解压 命令:bzip2 -d XXXXXX.bz2Linux 后缀为 .tar.bz2 格式的文件-解压 命令:tar jxvf XXXXXX.tar.bz2Linux 后缀为 .tar 格式的文件-解压 命令:tar z...
阅读(466) 评论(0)

[置顶] 【linux 命令】进程控制

1.查看用户最近登录情况 last lastlog2.查看硬盘使用情况 df3.查看文件大小 du4.查看内存使用情况 free5.查看文件系统 /proc6.查看日志 ls /var/log/7.查看系统报错日志 tail /var/log/messages8.查看进程 top9.结束进程 kill 1234 kill -9 4333...
阅读(197) 评论(0)

[置顶] 【linux 命令】输入输出重定向及管道

1.新建一个文件 touch a.txt b.txt 2.错误重定向:2> find /etc -name zhaoxing.txt 2> error.txt3.将正确或错误的信息都输入到log.txt中 find /etc -name passwd > /tmp/log.txt 2>&1 find /etc -name passwd &> /tmp/log.txt4.追加>>5.将小...
阅读(357) 评论(0)

[置顶] 【linux 命令】正则表达式

1.cut截取以:分割保留第七段 grep hadoop /etc/passwd | cut -d: -f72.排序 du | sort -n 3.查询不包含hadoop的 grep -v hadoop /etc/passwd4.正则表达包含hadoop grep ‘hadoop’ /etc/passwd5.正则表达(点代表任意一个字符) grep ‘h.*p’ /etc/passwd6....
阅读(378) 评论(0)

[置顶] 【linux 命令】解压和打包

1.gzip压缩 gzip a.txt2.解压 gunzip a.txt.gz gzip -d a.txt.gz3.bzip2压缩 bzip2 a4.解压 bunzip2 a.bz2 bzip2 -d a.bz25.将当前目录的文件打包 tar -cvf bak.tar . 将/etc/password追加文件到bak.tar中(r) tar -rvf bak.tar /etc/p...
阅读(505) 评论(0)

[置顶] 【linux 命令】查找

1.查找可执行的命令: which ls2.查找可执行的命令和帮助的位置: whereis ls3.查找文件(需要更新库:updatedb) locate hadoop.txt4.从某个文件夹开始查找 find / -name “hadooop*” find / -name “hadooop*” -ls5.查找并删除 find / -name “hadooop*” -ok rm {} \...
阅读(317) 评论(0)

[置顶] 【JDK 安装】linux下jdk安装步骤

1.安装JDK *添加执行权限 chmod u+x jdk-6u45-linux-i586.bin *解压 ./jdk-6u45-linux-i586.bin *在/usr目录下创建java目录 mkdir /usr/java *将/soft目录下的解压的jdk1.6.0_45剪切到/usr/java目录...
阅读(254) 评论(0)

[置顶] 【linux 命令】权限

创建a.txt和b.txt文件,将他们设为其拥有者和所在组可写入,但其他以外的人则不可写入: chmod ug+w,o-w a.txt b.txt创建c.txt文件所有人都可以写和执行 chmod a=wx c.txt 或chmod 666 c.txt将/itcast目录下的所有文件与子目录皆设为任何人可读取 chmod -R a+r /itcast将/itcast目录下的所有文件与子目录的拥...
阅读(137) 评论(0)

[置顶] 【linux 命令】用户和组

添加一个tom用户,设置它属于users组,并添加注释信息 分步完成:useradd tom usermod -g users tom usermod -c “hr tom” tom 一步完成:useradd -g users -c “hr tom” tom设置tom用户的密码 passwd tom修改tom用户的登陆名为tomcat usermo...
阅读(1014) 评论(0)

[置顶] 【linux 命令】系统命令

1.查看主机名 hostname2.修改主机名(重启后无效) hostname hadoop3.修改主机名(重启后永久生效) vi /ect/sysconfig/network4.修改IP(重启后无效) ifconfig eth0 192.168.12.225.修改IP(重启后永久生效) vi /etc/sysconfig/network-scripts/ifcfg-eth06.查看系统信...
阅读(276) 评论(0)

[置顶] 【linux 命令】文件相关命令

1.进入到用户根目录 cd ~ 或者 cd cd ~hadoop 回到原来路径 cd -2.查看文件详情 stat a.txt3.移动 mv a.txt /ect/ 改名 mv b.txt a.txt 移动并改名 mv a.txt ../b.txt4拷贝并改名 cp a.txt /etc/b.txt5.vi撤销修改 ctrl + u (undo) 恢复 ctrl + r...
阅读(273) 评论(0)

[置顶] 【linux 常用命令】linux命令大全

说明:安装linux时,创建一个itcast用户,然后使用root用户登陆系统1.进入到用户根目录 cd ~ 或 cd2.查看当前所在目录 pwd3.进入到itcast用户根目录 cd ~itcast4.返回到原来目录 cd -5.返回到上一级目录 cd ..6.查看itcast用户根目录下的所有文件 ls -la7.在根目录下创建一个itcast的文件夹 mkdir /itcast8...
阅读(160) 评论(0)

[置顶] 【VMware Workstation】VMware 所有版本永久许可证激活密钥

注:VMware v11.x、12.x 系列版本仅支持64位系统,如果是32位系统请用VMware v10.x版本VMware 所有版本永久许可证激活密钥:VMware Workstation v12 for Windows 5A02H-AU243-TZJ49-GTC7K-3C61N VF5XA-FNDDJ-085GZ-4NXZ9-N20E6 UC5MR-8NE16-H81WY-R7QGV...
阅读(2263) 评论(0)

[置顶] 【vmware 服务器安装】虚拟机centos6.5安装步骤

步骤一:安装node1,配置node1vi /etc/sysconfig/network-scripts/ifcfg-eth0ONBOOT=yes #是否开机启用修改完成之后reboot步骤二:克隆node2,node3出来步骤三:配置 node2,node3 1、vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=node22,解决克隆后e...
阅读(683) 评论(0)

[置顶] 【matlab GUI】GUI listbox的用法

A= get(handles.listbox1,'value'); %A的值代表我们选的是第几个选项 switch A case 1 % 当我们选的是1 时,给变量B赋个什么样的值,依次类推,最后B将是你想要的结果 I=imread('1.jpg'); I0=rgb2gray(I); axes(handles.axes2) BW1=edge(I0,'Roberts...
阅读(1657) 评论(0)

[置顶] 【matlab 图像处理】五种边缘检测算法比较

代码实现I=imread('1.jpg'); I0=rgb2gray(I); subplot(231); imshow(I);BW1=edge(I0,'Roberts',0.16); subplot(232); imshow(BW1); title('Robert算子边缘检测') BW2=edge(I0,'Sobel',0.16); subplot(233); imshow(BW2); title(...
阅读(1024) 评论(0)

[置顶] 【python 淘宝爬虫】python 淘宝店铺名称,旺旺,销售量 抓取

一、需求分析 抓取淘宝店铺名称,旺旺,销售量 二、效果展示 三、实现源代码# encoding: utf-8import sys reload(sys) sys.setdefaultencoding('utf-8')import pandas as pd import time import re time1=time.time()import requestsseller=[] shop=[]...
阅读(1006) 评论(0)

[置顶] 【python 淘宝爬虫】淘宝信誉分抓取

一、需求分析 输入旺旺号,获取淘宝卖家的信用分二、思路 淘宝需要模拟登陆,我们这里抓不到,因此为了绕过登陆,发现了淘一兔,我们可以通过这里,得到淘宝卖家的信用分,结果是一样的。 http://www.taoyizhu.com/输入旺旺号,需要点击查询,等待几秒,得到查询结果,这里我们用selienum 来做三、实现源代码(抓取不能太快,否则抓不到)# encoding: utf-8from s...
阅读(2084) 评论(0)

[置顶] 【数据科学】当代数据科学家需要掌握的技能

道路通往星辰大海,纵有荆棘不言孤单~...
阅读(1042) 评论(0)

[置顶] 【python 爬虫】selenium+phontomjs 用法

程序1:输入病员号,查询病员信息# encoding: utf-8from selenium import webdriver import sys reload(sys) sys.setdefaultencoding('utf-8') from lxml import etree import pandas as pd import time time1=time.time() driver=we...
阅读(616) 评论(0)

[置顶] 【spark 词频统计】spark单词进行计数升级版

下面的代码对文件里的单词进行计数,筛选出现过10次的单词,然后对这些单词中的每个字符出现的次数进行计数。最后,通过collect action操作触发job的执行。这些转换中有两个是stage边界(它们有宽依赖)。代码中的两个reduceByKey转换是生成3个stage的原因:val words = sc.textFile("textFilePath").flatMap(_.split(' '))...
阅读(554) 评论(0)

[置顶] 【R语言 可视化】R语言画图增加次要刻度线

dose<-c(20,30,40,45,60) drugA<-c(16,20,27,40,60) plot(dose,drugA,xlim = c(0,70)) library(Hmisc) minor.tick(nx=5,ny=5)...
阅读(1159) 评论(0)

[置顶] 【python 数据可视化 】饼图,箱线图,条形图,直方图,折线图,散点图

# coding:UTF-8 import matplotlib.pyplot as plt import numpy as np import pandas as pd import matplotlib.dates as mdates##画直线 plt.plot([1,2,3,4,5],[1,2,3,4,5]) plt.show()##numpy 导入数据,切片,索引 a=np.loadtxt(...
阅读(1867) 评论(0)

[置顶] 【R语言 社交网络】R语言关系网络图+ PageRank算法实现

例子1: library(plyr)set.seed(10) rm(list=ls()) library(igraph) g<-random.graph.game(n=10,p.or.m=1/3,directed=TRUE) com = walktrap.community(g, steps = 6) V(g)$sg = com$membership + 1 V(g)$color = rainbow...
阅读(3754) 评论(0)

[置顶] 【spark 学习笔记】Spark学习笔记精华(1)

好记性不如烂笔头,顺便就开始用手机练习打字了,也分享给感兴趣的朋友学习下。 1.take可以查看RDD中前面几个元素,而且代价很小。rdd.take(5)2.可以用takeSample对数据进行采样,它的第一个参数表示是否允许重复采样。rdd.takeSample(true,3)3.top返回数据集中按给定ordering方式排序的最大的k条记录,许多场景都要用到它,比如对每条记录打分之后,检查得分...
阅读(289) 评论(0)

[置顶] 【spark RDD】RDD编程

%spark/*创建RDD*/ val data0=sc.parallelize(Array(1,2,3,3)) /*************************************对一个数据的RDD进行转换操作************************************************/ /*map*/ val data1=data0.map(x=>x+1)//每个元素...
阅读(338) 评论(0)

[置顶] 【spark 数据框】Spark数据框dataFrame

%spark /*DataFrame*/ val data=sc.parallelize(List(("Alice",21),("Bob",24))) val people=data.toDF("name","age") people.show()/*增加一列*/ val df1=(1 to 5).map(i=>(i,i*2)).toDF("single","double") df1.show()...
阅读(608) 评论(0)

[置顶] 【R 可视化】R 画关系网络图

rm(list=ls()) library(igraph) #1.用igraph创建图表 g<- graph(c(1,2, 1,8,1,9,1,10,2,4,2,5,2,6,2,3,3,7,3,11,3,12,3,1), directed=T)com = walktrap.community(g, steps = 6) V(g)$sg = com$membership + 1 V(g)$color...
阅读(905) 评论(0)

[置顶] 【spark 累加器】spark 累加器求1+2+3+4+5+......+100

%spark val accum = sc.accumulator(0) val num=1 to 100 sc.parallelize(num).foreach(x => accum += x) val total_sum=accum.value println(total_sum)accum: org.apache.spark.Accumulator[Int] = 0 num: scala.co...
阅读(640) 评论(0)

[置顶] 【R语言 函数】R语言聚合函数总结

> rm(list=ls()) > > > # 聚合函数学习 > data(iris) > ##tapply 分组求和 > (aa > ##rowsum 分组求和...
阅读(841) 评论(0)

[置顶] 【R语言 算法设计】信用贷款余额计算

#####设置 rm(list = ls()) options(scipen =20)########################step0:读取数据########################## data<-read.table("E:\\贷款余额\\信用贷款.txt",sep="\t",header=T) #########################step1:数据处理#####...
阅读(875) 评论(0)

[置顶] 【算法 机器学习】R语言做朴素贝叶斯和决策树算法

data:2016-02-19 author:laidefa########################朴素贝叶斯################################## ###目标:利用朴素贝叶斯预测苹果是好的坏的 rm(list=ls()) gc() library(plyr) library(reshape2)#训练集 train.apple<-data.frame(size=...
阅读(803) 评论(0)

[置顶] 【R语言 可视化】R语言 ggplot2 一张图画多个饼

author:laidefa date:2016-01-18 椰丝,终于画好了,要画好多个饼不容易啊 ,画都画饱了。 # data:2016-1-18 # author:laidefa rm(list=ls()) gc() a=c(15,25,40,12,8) b=c(5,18,12,45,10) c=c(7,24,13,36,20) d=c(3,27,40,21,9) type=c("A",...
阅读(904) 评论(0)

[置顶] 【R语言 爬虫】用R爬虫,爬取杭州安居客九堡租房信息

在当今互联网时代,数据要会挖,得先学会爬!爬的过程是痛苦的,因为在计算机程序开发领域,网络爬虫的开发是一个很专业的方向,技术门槛比较高,它所要求的综合知识很多,相信很多同学都望而却步了。别急,说话说到后面往往都有但是滴。 但是该领域的几个非常方便的工具已经被集成到R的一些第三方包中了,所以我们完全可以基于R用一种很容易实现的方式来实现互联网数据的抓取,让我们可以直接去挖掘互联网这座金矿。...
阅读(541) 评论(0)

[置顶] 【R语言 可视化】我教你15分钟学会用R画各种统计图

data:2015-10-17 author:laidefa 有同学让我开始教他R语言,就先分享点东西把。学习R的曲线是陡峭的,有人教你才是正道,没人教你你至少要安静学习三个月甚至远远不止,才会驾轻熟重,才能养成那种R编程的感觉和习惯,这个过程是痛苦枯燥无味的。我以前是没人教的,自学成才(啧啧啧…….)。自己看书你要看到什么时候,还有你能静下心来坚持看下去么,看我这个简单的教程吧,立马学会,废话...
阅读(1242) 评论(0)

[置顶] 【算法 机器学习】MATLAB、R、python三种编程语言实现简单线性回归算法比较

data:2015-10-04 author:laidefa 今天看到机器学习中的回归,一个简单的线性回归原理想想无非就是利用最小二乘法进行拟合。想着自己去实现下算法,体验以下不同的编程语言实现算法有什么难易程度,亲自编完实现之后,心中方有感觉,得知结果python最佳。下面还是贴上代码把,仅供欣赏。1、matlab实现最小二乘法算法%data:2015-10-04 %author:la...
阅读(987) 评论(0)

[置顶] 【excel VBA】中英文分割

'中文 Function SplitStringChs(TheString) Dim n, Chs For n = 1 To Len(TheString) If Asc(Mid(TheString, n, 1)) < 0 Then Chs = Chs & Mid(TheString, n, 1) End If N...
阅读(331) 评论(0)

[置顶] 【matlab 圆周率计算】matlab 求圆周率的两种算法实现比较

%author:laidefa %data:2014-09-19 %丘德诺夫斯基公式求圆周率 function mpi=qdnfsj(m) i=m; s=13591409; for n=1:i A=(factorial(6*n)(13591409+54514013*n))/(factorial(3*n)*factorial(n)^3(-640320)^(3*n));...
阅读(460) 评论(0)

[置顶] 【excel VBA】excel 计算字符串相似度

Private Function min(one As Integer, two As Integer, three As Integer) min = one If (two < min) Then min = two End If If (three < min) Then min = three End I...
阅读(652) 评论(0)

[置顶] 【excel VBA】合并当前工作薄下多个sheet表

Sub 合并当前工作簿下的所有工作表() Application.ScreenUpdating = False For j = 1 To Sheets.Count If Sheets(j).Name <> ActiveSheet.Name Then X = Range("A65536").End(xlUp).Row + 1 Sheets(j).UsedRange.C...
阅读(653) 评论(2)

[置顶] 【excel VBA】合并一个文件夹下多张excel表数据,前提字段一样

Sub HuiZong() Dim myfile, mypath, wb '声明变量 Application.ScreenUpdating = False '关闭屏幕更新 Sheet1.UsedRange.Offset(1, 0).Clear '清除除表头之外的所有内容 mypath = ThisWorkbook.Path '找到当前工作簿的路径...
阅读(742) 评论(2)

[置顶] 【python 下载器】python下载电影&视频&电视剧

输入视频链接,python后台下载视频# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import requests import re import time time1=time.time() link='http://v3.365yg.com/a0ee2d891f16098d3098f8f1436...
阅读(1439) 评论(0)

[置顶] 【python 视频爬虫】python下载头条视频

一、需求分析 抓取今日头条短视频视频链接: http://video.eastday.com/a/170612170956054127565.html二、代码实现# encoding: utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import requests import re import time time1=t...
阅读(2113) 评论(0)

[置顶] 【python 可视化】python利用matplotlib库绘制散点图案例

import pandas as pd import numpy as np import matplotlib.pyplot as plt import random N=50 x=np.random.randn(N) y=np.random.randn(N) plt.scatter(x,y,s=50,c='b',marker='o',alpha=0.5) plt.savefig("C:/a3.j...
阅读(1016) 评论(0)

[置顶] 【R 语言 可视化】在直方图上面添加密度曲线

rm(list=ls()) gc() set.seed(1234) score <- rnorm(n = 1000, m = 80, sd = 20) hist(score, freq=FALSE, xlab="Score", main="Distribution of score", col="lightgreen", xlim=c(0,...
阅读(1991) 评论(0)

[置顶] 【python 可视化】python利用matplotlib库绘制饼图案例

import matplotlib.pyplot as plt sizes = [15, 30, 45, 10] labels = 'Frogs', 'Hogs', 'Dogs', 'Logs' colors = ['yellowgreen', 'gold', 'lightskyblue', 'lightcoral'] explode = (0, 0.1, 0, 0) plt.pie(sizes,...
阅读(1299) 评论(0)

[置顶] 【python 可视化】数据透视表的用法及画饼图

# encoding: utf-8###################设置utf-8编码############## import sys reload(sys) sys.setdefaultencoding('utf-8')####################导入包######## import pandas as pd import numpy as np import matplotli...
阅读(1505) 评论(0)

[置顶] 【matlab dijkstra单源最短路径算法】dijkstra单源最短路径算法实现

一、主函数function [min,path]=dijkstra(w,start,terminal) %%%参数说明 %%%%%%输入 % w:网络各点的邻接矩阵 % start:起点 % start:终点 %%%%%输出 % min:最短距离 % path:最短路径n=size(w,1); label(start)=0; f(start)=start; for i=1:n if i~=st...
阅读(1303) 评论(0)

[置顶] 【matlab 可视化】MATLAB 画最短路径网络图

clc,clear a=zeros(7); a(1,2)=4;a(1,3)=2; a(2,3)=3;a(2,4)=2;a(2,5)=6; a(3,4)=5;a(3,6)=4; a(4,5)=2;a(4,6)=7; a(5,6)=4;a(5,7)=8; a(6,7)=3;% %构建稀疏矩阵 b=sparse(a); % 画网络图 h=view(biograph(b,[],'showArrows','o...
阅读(642) 评论(0)

[置顶] 【R 数据科学】R语言进行数据科学整理最有用的包大全

一、数据科学工作流程1.1 数据导入 1.2 数据整理 1.3 反复理解数据 1.4 数据可视化 1.5 数据转换 1.6 统计建模 1.7 作出推断(比如预测) 1.8 沟通交流 1.9 自动化分析 2.0 程序开发二、每个步骤最有用的一些R包1、数据导入以下R包主要用于数据导入和保存数据feather:一种快速,轻量级的文件格式。在R和python上都可使用 readr:实现...
阅读(917) 评论(1)

[置顶] 【R语言 数据处理】R语言数据变形melt用法

1、需要安装的包install.packages("reshape2") install.packages("knitr")2、加载包rm(list=ls()) gc() library(reshape2) library(knitr)3、创建数据集data<-data.frame(Name = c("苹果","谷歌","脸书","亚马逊","腾讯"),Company = c("Apple","Go...
阅读(2035) 评论(0)

[置顶] 【R语言 可视化】R语言画雷达图

1、安装插件 github网址: https://github.com/ricardo-bion/ggradardevtools::install_github("ricardo-bion/ggradar") install.packages("knitr")2、效果图3、源代码rm(list=ls()) gc() library(ggradar) mydata<-matrix(runif(40...
阅读(3755) 评论(0)

[置顶] 【python 百度指数抓取】python 模拟登陆百度指数,图像识别百度指数

一、算法思想 目的奔着去抓取百度指数的搜索指数,搜索指数的爬虫不像是其他爬虫,难度系数很高,分析之后发现是图片,坑爹的狠,想了下,由于之前做过身份证号码识别,验证码识别之类,豁然开朗,不就是图像识别麽,图像识别我不怕你,于是就有了思路,果然有异曲同工之妙,最后成功被我攻破了,大致思路如下:1、首先得模拟登陆百度账号(用selenium+PhantomJS模拟登陆百度,获取cookie)...
阅读(4538) 评论(1)

[置顶] 【python 可视化】python 一行代码画爱心图

一、效果二、源代码print'\n'.join([''.join([('LoveDaLin'[(x-y)%8]if((x*0.05)**2+(y*0.1)**2-1)**3-(x*0.05)**2*(y*0.1)**3<=0 else' ')for x in range(-30,30)])for y in range(15,-15,-1)])...
阅读(2458) 评论(0)

[置顶] 【python 图像识别】图像识别从菜鸟走向大神系列1

一、安装配置(python2.7)1.pip install pytesseract 2、pip install pyocr 3、pip install pillow 4、安装tesseract-ocr:http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe,安装在C:\Pro...
阅读(3370) 评论(0)

[置顶] 【matlab 爬虫】用matlab做网络爬虫入门系列1

一、需求分析 抓取内容: 二、实现代码clc,clear %% % 设置不用科学计数法显示数据 format short g % % % 读取源代码 sourcefile=urlread('file:///D:/Program%20Files/MATLAB/R2013a/gui3/sheet.html'); % 正则表达式获取第一行数据存为data1 expr1='(.*?)<...
阅读(1649) 评论(0)

[置顶] 【matlab 播放音乐】教你如何用matlab播放音乐

1、代码片段1 [fname,pname]=uigetfile('.wav','选择原始声音文件'); file=[pname,fname]; fs = 8000; [x,fs] = wavread(file); sound(x,fs); 2、代码片段2 [y,Fs,bits] = wavread('jinyong.wav'); %获取音乐数据 ao = analogoutput('winsou...
阅读(600) 评论(0)

[置顶] 【python 调用储存过程】python 执行储存过程

# -*- coding:utf-8 -*-import sys reload(sys) sys.setdefaultencoding('utf-8') import pymysql conn=pymysql.connect(host='localhost',port=3306,user='root',password='12345',db='cgjr', charset='utf8') # 创建游...
阅读(1919) 评论(0)

[置顶] 【mysql 存储过程】应用存储过程的优点与缺点

总结下使用存储过程的优缺点 一、存储过程优点 存储过程是一组预先创建并用指定的名称存储在数据库服务器上的 SQL 语句,将使用比较频繁或者比较复杂的操作,预先用 SQL 语句写好并存储起来,以后当需要数据库提供相同的服务时,只需再次执行该存储过程。1.具有更好的性能存储过程是预编译的,只在创建时进行编译,以后每次执行存储过程都不需再重新编译,而一般 SQL 语句每执行一次就编译一次,因此使用存储...
阅读(498) 评论(0)

[置顶] 【mysql 存储过程】存储过程之流程控制语句

-- 1、IF语句 -- 创建存储过程,判断两个输入参数哪一个大 -- 输入的第一个参数对应p1,第二个对应p2,@ax用来接收输出变量p3; 如果p1>p2,输出1;如果p1=p2,输出2;其他情况,输出3。 -- -- 定义存储过程 DELIMITER $$ CREATE PROCEDURE difference(IN p1 INTEGER,IN p2 INTEGER,OUT p3 INTEG...
阅读(823) 评论(0)

[置顶] 【mysql 事件】mysql事件的开启和调用

1、检测事件是否开启 show variables like 'event_scheduler';2.开启事件 set global event_scheduler = on;3.创建一个存储过程delimiter // create procedure test() begin update project set create_time = now(); end;4.创建一个事件create e...
阅读(3391) 评论(0)

[置顶] 【mysql 存储过程】数据库从菜鸟走向大神系列3

1、创建数据库create database cgjr2. 建表我们新建一张学生表和教师表如下:CREATE TABLE student( id INT NOT NULL AUTO_INCREMENT, first_name VARCHAR(10) NOT NULL, last_name VARCHAR(10) NOT NULL, sex VARCHAR(5) NOT NULL,...
阅读(2291) 评论(0)

[置顶] 【mysql 密码重置开启远程连接终极版】mysql 安装密码设置开启远程连接

my.ini 加入 skip-grant-tables进入 mysql -u root -pupdate MySQL.user set authentication_string=password('123456') where user='root' ;my.ini 关闭 #skip-grant-tables重启net stop mysql net start mysqlmysql -u root...
阅读(1088) 评论(0)

[置顶] 【mysql 命令】Linux mysql 最常用的命令

一、连接MYSQL。 格式: mysql -h主机地址 -u用户名 -p用户密码1、连接到本机上的MYSQL。 # mysql -u root -p 回车后提示你输密码,注意用户名前可以有空格也可以没有空格,但是密码前必须没有空格,否则让你重新输入密码。 如果刚安装好MYSQL,超级用户root是没有密码的,故直接回车即可进入到MYSQL中了,MYSQL的提示符是: mysql>2、连接到远...
阅读(1505) 评论(0)

[置顶] 【mysql linux安装】Mysql centos安装教程

步骤:1)查看CentOS自带的mysql输入 rpm -qa | grep mysql2)将自带的mysql卸载3)上传Mysql到linux4)安装mysql的依赖(选做)yum -y install libaio.so.1 libgcc_s.so.1 libstdc++.so.6yum update libstdc++-4.4.7-4.el6.x86_645)解压Mysql到/usr/loc...
阅读(1800) 评论(0)

[置顶] 【mysql 修炼之路】如何从菜鸟成为mysql 大神?

首先MySQL大多是跑在Linux环境上的,所以我们需要学习一下Linux的知识,最基础的需要了解: ■ Linux的安装及目录结构意义 ■ 常用的Linux命令,大概20多个 ■ 网络基本知识,进一步了解网关及路由相关概念,dhcp ■ 撑握一定的Linux网络服务,如果LAMP结构,dns, ftp 等其...
阅读(1187) 评论(0)

[置顶] 【python DataFrame】Pandas里面的屠龙宝刀DataFrame

# encoding: utf-8 from __future__ import division import sys reload(sys) sys.setdefaultencoding('utf-8') import numpy as np import pandas as pd # 1.创建DataFrame的几种方式 #######1.1纯字典创建 students={'names':['...
阅读(2264) 评论(0)

[置顶] 【mysql 远程连接】关于远程连接服务器MySql的一些解决方案

在我们拿到一个新的服务器时,往往是系统自动生成的密码,不方便调试和远程维护。这里做第一步操作,修改mysql密码;mysql -u 要修改的用户名 -penter 密码mysql->use mysql;/*切换数据库(非root用户可无视)*/mysql->select user,password,host from user;/*查看用户组信息(包含密码)*/mysql->SET PASSWORD...
阅读(1089) 评论(0)

[置顶] 【混得好的都有这 5 种特质】优秀的年轻人都有这 5 大特质

第一,有好奇心,能够主动学习新事物、新知识和新技能。今天不太谦虚,我把自己当做正例,然后再说一个负例。我有个前同事,理论基础挺好,但每次都是把自己的工作做完就下班了。他在这家公司呆了一年多,但对网上的新技术、新工具都不去了解。所以他非常依赖别人。当他想要实现一个功能,他就需要有人帮他做后半部分,因为他自己只能做前半部分——如果是有好奇心的人,前端、后端、算法都去掌握、至少有所了解的话,那么很多调试分...
阅读(4349) 评论(0)

[置顶] 【mysql 用户权限管理】mysql 权限管理学习

概述 用户权限管理主要有以下作用: 1. 可以限制用户访问哪些库、哪些表 2. 可以限制用户对哪些表执行SELECT、CREATE、DELETE、DELETE、ALTER等操作 3. 可以限制用户登录的IP或域名 4. 可以限制用户自己的权限是否可以授权给别的用户一、用户授权mysql> grant all privileges on *.* to 'yangxin'@'%' id...
阅读(937) 评论(0)

[置顶] 【mysql 使用错误解决】this is incompatible with sql_mode=only_full_group_by

使用mysql的时候遇到的一些错误1、Err1055,出现这个问题往往是在执行sql语句时候,在最后一行会出现这个问题。[Err] 1055 - Expression #1 of ORDER BY clause is not in GROUP BY clause and contains nonaggregated column 'information_schema.PROFILING.SEQ'...
阅读(1140) 评论(0)

[置顶] 【mysql 连接错误解决】mysql 登录错误解决

这几天用空密码登录mysql后,然后修改mysql默认密码,使用mysql表出现过这个问题,提示:ERROR 1044 (42000): Access denied for user ”@’localhost’ to database ‘mysql’。网上找了一些方法,终于搞定了。后来解决成功发现是因为mysql数据库的user表里,存在用户名为空的账户即匿名账户,导致登录的时候是虽然用的是root...
阅读(1085) 评论(0)

[置顶] 【mysql 安装教程】MySQL5.7.18-下载安装教程

1、如何下载mysql 打开mysql官网下载链接网址: https://dev.mysql.com/downloads/选中第一个,点击download 下载进去之后,选择对应的系统和电脑版本(在这里,我选择的是Window系统64位的下载) 点击 download,选中 No thanks, just start my download. 下载完成。2、如何安装mysql从官网上下载...
阅读(6522) 评论(1)

[置顶] 【mysql 重置密码】快速重置mysql密码

如果你忘记了mysql密码几乎是没有什么好办法可以直接修改密码了,但我们可以在my.ini把加上skip-grant-tables,然后重启mysql就不需要密码了,这时我们再修改root密码,最后再把skip-grant-tables删除重启即可。首先,很荣幸你找到了这篇文章。。。 如果你忘记了mysql的密码不妨试试以下这个方法。 1、打开my.ini 代码如下 复制代码 [m...
阅读(2677) 评论(0)

[置顶] 【mysql 存储过程】数据库从菜鸟走向大神系列2

MySQL存储过程的基本函数 (1).字符串类 CHARSET(str) //返回字串字符集 CONCAT (string2 [,... ]) //连接字串 INSTR (string ,substring ) //返回substring首次在string中出现的位置,不存在返回0 LCASE (string2 ) //转换成小写 LEFT (string2 ,length ) //从str...
阅读(2567) 评论(0)

[置顶] 【mysql 存储过程】数据库从菜鸟走向大神系列1

1. 关于MySQL的存储过程 存储过程是数据库存储的一个重要的功能,但是MySQL在5.0以前并不支持存储过程,这使得MySQL在应用上大打折扣。好在MySQL 5.0终于开始已经支持存储过程,这样即可以大大提高数据库的处理速度,同时也可以提高数据库编程的灵活性。2. MySQL存储过程的创建 (1). 格式 MySQL存储过程创建的格式:CREATE PROCEDURE 过程名 ([过程参数[,...
阅读(2399) 评论(0)

[置顶] 【R语言爬虫】R语言提交get请求抓取城城理财数据

一、需求分析 抓取城城理财数据。 抓取url: https://www.cclc.co/debts/lctz_all_all二、实现源代码rm(list=ls()) library(XML) library(RCurl)url='https://www.cclc.co/debts/lctz_all_all' myheader <- c( "User-Agent"="Mozilla/5.0...
阅读(2111) 评论(0)

[置顶] 【R语言爬虫】R语言提交post请求抓取盈盈理财数据

一、需求分析 抓取盈盈理财数据 抓取url: https://licai.yingyinglicai.com/product/list.htm二、效果 三、实现源代码rm(list=ls()) library(XML) library(RCurl) k=1 url='https://licai.yingyinglicai.com/product/list.htm' web<-postForm...
阅读(3494) 评论(0)

[置顶] 【R语言数据导出txt】 write.table 函数用法

1)write.table函数语法:write.table (x, file ="", sep ="", row.names =TRUE, col.names =TRUE, quote =TRUE)参数说明: x:需要导出的数据 file:导出的文件路径 sep:分隔符,默认为空格(” “),也就是以空格为分割列 row.names:是否导出行序号,默认为TRUE,也就是导出行序号 col...
阅读(2000) 评论(0)

[置顶] 【python PDF解析】python 读取PDF文件内容

一、问题描述 利用python,去读取pdf文本内容。 二、效果 二、实现源代码# coding=utf-8 import sys reload(sys) sys.setdefaultencoding('utf-8') import time time1=time.time() import os.path from pdfminer.pdfparser import PDFParser,PD...
阅读(7521) 评论(7)

[置顶] 【R语言 数据分析】R语言获取Excel数据

一、问题描述:我们的数据放在Excel里面,数据格式后缀为.xls或者.xlsx。如何获取Excel中的数据呢?二、解决方案:R语言提供 xlsx 包 ,可以获取Excel中的数据。三、代码实现:#安装xlsx包if(!suppressWarnings(require(xlsx))){install.packages(“xlsx”)require(xlsx)}#1数据格式为.xlsexcel_dat...
阅读(3773) 评论(0)

[置顶] 【R语言 数据挖掘】R语言如何做关联规则?

一、前言 提到数据挖掘,我们第一反应就是之前听到的啤酒和尿不湿的故事,该故事就是典型的数据挖掘中的关联规则。购物篮分析区别于传统的线性回归的主要区别为,关联分析针对离散数据;下面我们利用R语言的arules包及Apriori算法对商品交易数据进行关联规则挖掘,二、常见关联规则: 关联规则:牛奶=>鸡蛋【支持度=2%,置信度=60%】 支持度:分析中的全部事务的2%同时购买了牛奶和鸡蛋,需设定域值,...
阅读(2336) 评论(0)

[置顶] 【R语言可视化】ggplot2 自定义柱状图

rm(list=ls()) gc() library(ggplot2) # 我们拿到这样的数据 name <- c("多","中","少","中","少") data <- data.frame(name) # 转化为数据框p2 <- ggplot(data,aes(x=name)) + geom_bar(width=0.7,fill=rgb(50,163,221,maxColorValue=...
阅读(2768) 评论(0)

[置顶] 【R语言可视化ggplot2入门教程1】一个完整的绘图流程

一、主要内容 1、首先简单画一个图出来 2、做一些等价调整 3、接受另一种类型的数据 4、简单的参数调整 5、纵坐标使用百分比表示 6、更改横纵轴坐标、标题等 7、在图中增加标注的文字 调整字体、背景等,达成excel的效果 8、保存图形 首先简单画一个图出来 二、ggplot2 开始入门# 我们拿到这样的数据 name <- c("多","中",...
阅读(2862) 评论(0)

[置顶] 【R语言数据类型】深入了解 向量、矩阵、数据框、列表

R语言数据类型有向量、矩阵、数据框、列表。下面我们来深入了解下: vector 的划分 R中的vector分为两类,atomic和list,二者的区别在于,前者元素类型必须相同,后者可以不同。前者的代表是向量和矩阵,后者的代表是list和数据框。 创建向量、矩阵、数据框、列表# atomic a <- 1:5 b <- letters[1:5] c <- 1:10 mat <- matrix(c,...
阅读(2686) 评论(0)

[置顶] 【go语言发送电子邮件】go语言版发送电子邮件

一、实现功能 用go语言发送一封邮件二、实现源代码package main import ( "net/smtp" "fmt" "strings" )/* * user : example@example.com login smtp server user * password: xxxxx login smtp server password * host:...
阅读(2163) 评论(0)

[置顶] 【go语言计算两个经纬度距离】根据经纬度计算两点之间距离

一、需求分析: 输入两个经纬度,计算它们之间的距离 lat1,lng1 := 32.060255,118.796877 lat2,lng2 := 39.904211,116.407395二、计算公式 //C = sin(LatA*Pi/180)*sin(LatB*Pi/180) + cos(LatA*Pi/180)*cos(LatB*Pi/180)*cos((MLonA-MLonB)*Pi/180...
阅读(2713) 评论(0)

[置顶] 【go语言读取mysql】go语言连接mysql,并且查询出结果

一、需求分析 go语言 连上mysql,并且从mysql中读取数据二、实现效果"D:\Program Files (x86)\JetBrains\Gogland 171.3780.106\bin\runnerw.exe" D:/Go\bin\go.exe run D:/Go/code/src/awesomeProject/go_mysql.go 链接数据库成功...........已经打开 192...
阅读(4005) 评论(0)

[置顶] 【go语言计算年龄生肖星座】go语言根据出生日期 计算年龄,所属星座,生肖

一、需求分析 go语言根据出生日期 计算年龄,所属星座,生肖二、运行效果"D:\Program Files (x86)\JetBrains\Gogland 171.3780.106\bin\runnerw.exe" D:/Go\bin\go.exe run D:/Go/code/src/awesomeProject/age_calculate.go 24 狮子座 鸡Process finished...
阅读(2161) 评论(0)

[置顶] 【go语言爬虫】go语言高性能抓取手机号码归属地、所属运营商

一、需求分析 根据手机号码获取手机号码的归属地和所属运营商类型 类似:四川 18683339513 乐山 614000 0833 中国联通二、运行效果 三、实现源代码package main//网址:https://github.com/M2shad0w/phone-go//安装包:go get github.com/M2shad0w/phone-go import ( "fmt"...
阅读(2079) 评论(0)

[置顶] 【go语言爬虫】go语言爬取豆瓣电影top250

一、需求分析 用go语言抓取 豆瓣电影top250 抓取url: https://movie.douban.com/top250抓取字段:电影名称、评分、评价人数二、运行: 正在抓取第0页…… 肖申克的救赎 9.6 824764人 这个杀手不太冷 9.4 791399人 霸王别姬 9.5 589028人 阿甘正传 9.4 678850人 美丽人生 9.5 394009人 千与千寻...
阅读(3689) 评论(0)

[置顶] 【python 新浪微博爬虫】python 爬取新浪微博24小时热门话题top500

一、需求分析 模拟登陆新浪微博,爬取新浪微博的热门话题版块的24小时内的前TOP500的话题名称、该话题的阅读数、讨论数、粉丝数、话题主持人,以及对应话题主持人的关注数、粉丝数和微博数。二、开发语言 python2.7三、需要导入模块 import requests import json import base64 import re import time import pand...
阅读(6828) 评论(5)

[置顶] 【python 图像识别】python 身份证号码识别

一、需求分析 识别身份证图片上的身份证号码。 如: 二、python实现源代码 # !/usr/bin/python #-*-coding:utf-8-*- import sys reload(sys) sys.setdefaultencoding('utf-8')import time time1 = time.time() from PIL import Image import pyte...
阅读(5440) 评论(0)

[置顶] 【R语言可视化】R语言画爱心图

数学系也可以很浪漫~~rm(list=ls()) library(grid)heart <- function(lcolor){ t=seq(0, 2*pi, by=0.1) x=16*sin(t)^3 y=13*cos(t)-5*cos(2*t)-2*cos(3*t)-cos(4*t) a=(x-min(x))/(max(x)-min(x)) b=(y-min(y))/(max...
阅读(3515) 评论(0)

[置顶] 【python可视化】python 画饼图,柱状图,折线图,条形图

python数据可视化 内容: 1、python 画柱状图 2、python画条形图 3、python画折线图 4、python画饼图 # -* encoding:utf-8 *- import matplotlib.pyplot as plt ##########设置中文显示 from pylab import * import pandas as pd mpl.rcParams['fo...
阅读(3513) 评论(0)

[置顶] 【go语言爬虫】网贷天眼数据平台爬虫

一、需求分析 利用go语言抓取网贷天眼数据平台昨日数据 字段: 排序 平台名称 成交额 综合利率 投资人 借款周期 借款人 满标速度 累计贷款余额 资金净流入 抓取url: http://www.p2peye.com/shuju/ptsj/二、go语言爬虫实现源代码package mainimport ( "fmt" "io/iout...
阅读(3213) 评论(0)

[置顶] 【python圆周率计算】python计算圆周率π的值到任意位

一、需求分析 输入想要计算到小数点后的位数,计算圆周率π的值。二、算法:马青公式π/4=4arctan1/5-arctan1/239这个公式由英国天文学教授约翰·马青于1706年发现。他利用这个公式计算到了100位的圆周率。马青公式每计算一项可以得到1.4位的十进制精度。因为它的计算过程中被乘数和被除数都不大于长整数,所以可以很容易地在计算机上编程实现。三、python语言编写出求圆周率到任意位的...
阅读(5440) 评论(0)

[置顶] 【python爬虫】网贷天眼平台表格数据抓取

一、需求分析 抓取url: http://www.p2peye.com/shuju/ptsj/抓取字段: 昨日数据 排序 平台名称 成交额 综合利率 投资人 借款周期 借款人 满标速度 累计贷款余额 资金净流入二、python爬虫源代码# -*- coding:utf-8*- import sys reload(sys) sys.setdefaultencodin...
阅读(3794) 评论(0)

[置顶] 【R语言爬虫】网贷天眼数据平台表格数据抓取2

一、需求分析 抓取url: http://www.p2peye.com/shuju/ptsj/ 昨日数据: 字段:排序 平台名称 成交额 综合利率 投资人 借款周期 借款人 满标速度 累计贷款余额 资金净流入二、rvest爬虫实现源代码rm(list=ls()) gc() options(scipen = 200) library('rvest') timest...
阅读(4528) 评论(0)

[置顶] 【R语言爬虫】网贷天眼平台表格数据爬虫1

一、需求分析 目标:利用R语言 rvest包 抓取网贷天眼数据平台表格数据。抓取url:http://www.p2peye.com/shuju/ptsj/二、抓取步骤讲解: 1、安装rvset包 install.packages(“rvest”) 2、加载rvest包 library(“rvset”) 3、read_html()函数下载网页源代码...
阅读(5504) 评论(0)
300条 共15页1 2 3 4 5 ... 下一页 尾页
    个人资料
    • 访问:318996次
    • 积分:6343
    • 等级:
    • 排名:第4281名
    • 原创:298篇
    • 转载:2篇
    • 译文:0篇
    • 评论:26条
    文章分类
    最新评论