自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(85)
  • 资源 (6)
  • 收藏
  • 关注

原创 统计学原理之python数据分析基础(初稿)

本篇内容关键词:python基础、数据分析、pandas、描述统计、matlibplot、seaborn、可视化分析1.python基础1.1python简介都说python是门胶水语言,可以在需要的地方轻松地粘合目标需求。我觉得python的主要优点有两点:只需聚焦实现逻辑:只要把逻辑捋顺,调用第三方库可以轻易实现处理逻辑。语法简洁,符合日常阅读的习惯。容易获得相关的技术/理论支持:...

2019-07-28 21:44:28 693

原创 统计学原理之描述性统计——开篇

缘由:学习笔记的起始缘由:遇到了一个活跃的学习小组,学习内容又是一直想学而且想用好的领域。学习内容大纲如下:第一周学习内容——描述性统计知识点如下:数据集中趋势:中位数、均值、众数、极差、分位数算数平均数、加权平均数、几何平均数数据的离中趋势:数值型数据:方差、标准差、极差、平均差分类型数据:异众比率顺序型数据:四分位差相对离散程度:离散系数分布的形状:偏...

2019-07-25 16:17:54 1457

原创 使用python bokeh 进行作图,可交互(可以实时查看点对于的数据)

1.从数据度读取联通数据2.整理数据,格式、类型等3.按照折线图可视化最终输出结果:可交互图表,可实时查看对应的点的数据快速测试,模拟数据点# coding: utf-8import psycopg2import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport matplotlib...

2019-05-15 18:19:05 2762

原创 POSTGRE SQL使用存储过程执行一段更新/插入语句,并返回一段查询的结果集

返回结果集使用的是:RETURNS TABLE + RETURN query-- RETURNS "pg_catalog"."text" AS $BODY$ 原始日志CREATE OR REPLACE FUNCTION "schema"."table1"("haha_name" varchar, "logo_url" varchar) RETURNS TABLE("col1" varcha...

2019-05-15 14:23:38 2086

原创 hive 基础操作记录(非教程)

-- 进入查询环境hive;-- 进入数据库use foxdpi01;hive> use foxdpi01;OKTime taken: 2.128 seconds-- 查看表结构describe origin_sample_base ;-- 常看详细信息;describe formatted origin_sample_base;-- 查看数据select *...

2019-04-29 18:00:45 294

原创 pandas 数据处理从入门到入门教程(待续)

1.数据获取一切工作的开始。1.1数据初始化DataFrame:Numpy:1.2数据读取

2019-04-23 15:35:37 404

原创 平均增长率&增长率的平均&平均值的增长率 的对比

平均值的增长率:多个周期数据,计算平均值,然后根据平均值计算增长率。增长率平均值:增长率加和的平均平均增长率:增长率乘积的开方结论:数据趋势稳定,具体那种方法计算增长率,差异并不大。...

2019-04-21 10:27:34 10858

原创 使用 pandas join 连接时 报错 Buffer has wrong number of dimensions (expected 1, got 2)

逐步检查发现是索引除了问题# 以下的步骤,一般没问题df = df1.join(df2.set_index('col1'),on='col1')#加一步 重命名列,然后就报错了df2.columns =[['col1','col12']] ...

2019-04-16 18:03:21 11062

原创 pandas 数据分析总结

part1:基础操作dataframe 初始化(空/非空)dataframe 列名操作数据拼接(行/列拼接,暴力拼接)# 1.dataframe 初始化## 空dataframedf_data = pd.DataFrame()df_data = pd.DataFrame(data_list,columns=columns_list)# 2.dataframe 列名操作##...

2019-04-02 17:47:25 510

原创 拼接txt文件并输出到excel

# 法1:pandas.read_excel(path,engine='python')path_folder = ""path_output = "“”df_all = pd.DataFrame()for paths in os.walk(path_folder): for path in paths[2]: filepath = path_folder + '\...

2019-03-28 14:59:27 183

原创 python 操作 excel总结(openpyxl、pandas read.csv)

目的:自动从数据库取数贴到表格然后修改部分单元格删除部分数据。

2019-03-18 11:53:58 1060

原创 移动端自动化测试入门:用appium 控制安卓手机打开app(第二版,已完成)

基本需求:通过python代码自动打开指定app,并打开相关的内容,停留一段时间。用到的工具jdk 1.8sdkadb工具(android debug bridge)uiautomaorviewer顺序设置环境变量(Android SDK 和 java的环境变量)打开命令行打开命令行启动adb服务器:adb start-server启动adb服务器:adb start...

2019-02-26 18:26:09 12280

原创 百度指数爬虫+图片识别+数字识别训练

大佬贡献代码训练识别模型遇到的错误:无法识别出任何的内容:可能原因,环境变量没配置好可以识别某些验证码,但是却无法识别出需求的截图,自带的识别模型不适合,需要自己训练...

2018-10-24 19:11:27 631

原创 WireShark 应用

1.wireshark找不到捕获接口问题的解决办法 https://blog.csdn.net/yb0022/article/details/78436959?locationNum=8&fps=1

2018-08-20 18:13:11 214

原创 爬虫一般处理流程和反爬措施小结( 待续)

1.爬虫启动流程确认可行路径:无非就是app接口、不同的网页接口(合作平台、官方接口)确认反爬措施:这一步是蛮重要的,可以为接下来的步骤提供参考。从经验中比较容易的部分开始尝试确认规则可行:以目前的技术积累(技术层次)反反爬措施有希望实现。(即可破解:模拟、转换出所需要的参数;)如果需要的话,迭代 1234:出爬虫demo加反爬措施(IP代理、模拟登陆、准备足够多的账号、逆向分析...

2018-07-30 16:23:21 1038

转载 python lxml xpath使用简单汇总

1.xpath 的作用和优势将html解析未标签树,和Beautifulsoup一样,会自动补全缺失的标签。不同的是lxml是用c语言写的,速度会更快。2.xpath 使用方式# 1.html.fromstring import requestsfrom lxml import htmlSESSION_URL = 'https://github.com/session's =...

2018-07-26 17:48:08 337

转载 session和cookie的作用和原理,以及爬虫中的应用

Part1 基础定义无状态http协议: session:服务器端的状态保持机制,需要想办法在发送请求的时候携带sessionID。 cookies:客户端的状态保持机制,将信息存储在本地,有被劫持的危险;数量和大小有限制。有些状态不适合在服务端保持。参考: Session和Cookie的区别与联系1 Session和Cookie的区别与联系2Part2 爬虫中的应用#...

2018-07-25 18:49:23 734

原创 行研相关概念(待续)

1.GROW 模型: G:目标 R:现状 O:选择或者障碍 W:意愿或者前进方向从终而一再终 大方向→现状→小方向→具体行动 从最终目标审视现状、确定可行方向、落实到具体行动 广度优先思考、深度优先行动作用:用于理清目的和方向,确立行动指南 分析现状: 现在究竟发生了什么?(采用3W1H:what, who, when, and how often)它导...

2018-07-23 18:53:39 364

原创 sql distinct top

distinct 会作用在多个字段上,没有办法按一个字段去重,再取出其它的字段。#使用disctinct获取的内容select * from twhere x not in(select distinct x from t2)#取某字段非空的行select * from miaopai.bt_micro_user where aweme_count is not null...

2018-07-12 09:28:29 510

原创 sql临时表的使用

创建方式、销毁方式、使用方式、生命周期 不同数据库的区别

2018-07-10 19:02:58 1021

原创 navicat连接postgresqlba报错(FATAL:database "xxxx" does not exist)

报错如图所示,原因是初始数据库未填写,默认和用户名相同,但是其中没有这个数据库所以报错。填写已存在的数据库即可,这里填的是默认的“postgres”数据库。 感谢:登录报错psql: FATAL: database “highgo” does not exist 虽然文中没有给出解决方案,但是指明了报错原因 其余可能用到的:Windows上Navicat工具远程连接PostgreSQL数据库...

2018-07-10 09:19:15 9684 1

转载 Jupyter notebook 搭建和使用

转载自:Jupyter notebook 搭建和使用 Jupyter notebook 是什么?欢迎学习本课程——如何使用 Jupyter notebook。Jupyter notebook 是一种 Web 应用,能让用户将说明文本、数学方程、代码...

2018-05-06 18:56:31 2924

转载 D3.js从入门到“放弃”指南

转载自D3.js从入门到“放弃”指南 前言        近期略有点诸事不顺,趁略有闲余之时,玩起D3.js。之前实际项目中主要是用各种chart如hightchart、echarts等,这些图形库玩起来貌都是完美的,一切皆可配置,但几年前接触了D...

2018-04-08 10:04:32 366

转载 Linux(CenOS 7) 项目部署docker初尝试

项目地址 项目部署说明 基础概念参考: Docker入门与基本操作(1)本文成功部署过,内容有部分调整1.Docker安装Linux(CenOS 7):本人用的是新账户免费体验的疼讯云服务器 yum install -y docker systemctl start docker chkconfig docker on 2.Dcoker-compose安装...

2018-02-27 20:16:07 1001

原创 python版本管理工具记录

目的:减少各项目之间的包冲突例外:在用sublimeText时应该不能识别虚拟环境(配合pycharm可以使用)安装:python3.6.1pip install virtualenv pip install virtualenvwrapper使用:创建: virtualenv [虚拟环境名称] mkvirtualenv [虚拟环境名称] 使用:...

2018-02-27 20:14:25 300

原创 万事俱备之ORACLE_SQL 练手目录和 part1

重点内容: 1.提供下载ORACLE SQL:经典查询练手系列文章收尾(目录篇) 2.纯净版 ORACLE_SQL练手 更多内容: ORACLE_SQL 练手 part2 ORACLE_SQL 练手 part3 ORACLE_SQL 练手 part4 ORACLE_SQL 练手 part5 脚本下载: ORACLE_SQL练手 脚本-----------Some met...

2018-02-08 17:52:28 373

原创 万事俱备之ORACLE_SQL 练手 part5

更多参考和数据脚本下载:1.万事俱备之ORACLE_SQL 练手 part1select * from regions;select * from countries;select * from locations;select * from departments;select * from jobs;-- 1. 哪些部门的人数比90 号部门的人数多。---区别count...

2018-02-08 17:49:12 282

原创 ORACLE_SQL 练手 part4

更多参考和数据脚本下载:1.万事俱备之ORACLE_SQL 练手 part1--用到的表select * from regions;select * from countries;select * from locations;select * from departments;select * from jobs;update countries set country...

2018-02-07 15:15:25 248

原创 万事俱备之ORACLE_SQL 练手 part3

--脚本和其它参考见part1select * from employees;select * from DEPARTMENTS;select * from locations;SELECT TO_CHAR(SALARY,'U99,999.99','NLS_DUAL_CURRENCY=RMB') FROM EMPLOYEES WHERE ROWNUM < 5;SELECT TO_...

2018-02-06 15:06:48 242

原创 万事俱备之ORACLE_SQL 练手 part2

脚本和更多参考见:1.万事俱备之ORACLE_SQL 练手 part1--1. 找出EMP 表中的姓名( ENAME )第三个字母是A 的员工姓名。select ENAME from EMP where ename like '__A%';--2. 找出EMP 表员工名字中含有A 和N 的员工姓名。select ENAME from EMP where ename like '...

2018-02-05 18:15:40 365

原创 密码编码学初探——消息认证码

消息认证 HMAC MAC:DAA CMAC 消息认证:用来验证消息完整性的一种机制或者服务。消息仍正确保收到 的数据确实和发送时的一样,且发送方声称的身份是有效的。对称密码在那些互相共享密钥的用户间提供认证消息认证码:一种需要使用密钥的算法,以可变程度的消息和密钥作为输入,产生一个认证码。拥有密钥的接收方能够计算验证码验证消息的完整性。消息认证函数: 1.Hash函数 2.消息加密:加密

2017-11-13 17:09:14 2507

转载 密码编码学初探——分组密码的工作模式

分组密码的工作模式  密码学中,块密码的工作模式允许使用同一个块密码密钥对多于一块的数据进行加密,并保证其安全性。[1][2] 块密码自身只能加密长度等于密码块长度的单块数据,若要加密变长数据,则数据必须先被划分为一些单独的密码块。通常而言,最后一块数据也需要使用合适填充方式将数据扩展到符合密码块大小的长度。一种工作模式描述了加密每一数据块的过程,并常常使用基于一个通常称为

2017-11-13 16:26:08 654

原创 机器学习元知识

基本概念:机器学习:使用算法学习概率分布或者函数的过程(抽象版);从样本中按照一定的计算学习规则的过程(简化版);统计学习:基于数据构建概率模型的学习方法,是统计学、概率论、信息论、最优理论及计算科学等的交叉。             统计学习方法三要素:模型、策略、算法。深度学习:多层神经网络的学习方法模型要学习的概率分布或函数(假设空间)策略学习准则或者如何选择模型算法如何通过输入计算得到输出...

2017-10-22 23:21:31 722

原创 统计学元知识(从一到全部)

1.什么是统计学原始理解:通过样本去估计总体,无论是点/区间估计、假设检验、方差分析还是线性回归。样本 → 总体 课本定义:①一门收集分析、表述和解释数据的科学。②一组方法,用来设计实验、获得数据,然后在数据的基础上组织、概括、演示、分析、解释和得出结论。2.概率论和统计学的关系3.为什么要用统计学总体数据相对比较难获取,有时候也没有必要获取。①统计分析是数据到结论的必经之路,大数据亦需要抽样(E...

2017-10-22 23:13:00 1878

转载 机器学习应用——sklearn自带数据集训练(线性判别分析)

原文: 分類法/範例二: Normal and Shrinkage Linear Discriminant Analysis for classification"""总结:1.通过score方法拿到模型对当前特征数量的样本判断准确度2.对比有无shrinkage,部分方法才可以使用特征压缩http://scikit-learn.org/stable/modules/generated/s

2017-10-21 21:06:58 1509

原创 机器学习应用——sklearn自带数据集训练(支持向量机分类)

总地址:git hub :machine-learning-python 源地址:分類法/範例一: Recognizing hand-written digits1.代码#!/usr/bin/env python# -*- coding: utf-8 -*-# @Date : 2017-10-20 15:19:37# @Author : VeeL ([email protected]

2017-10-20 19:59:41 2265

原创 ptyhon学习手册 第四版学习笔记(留坑)

第四部分 函数第16章函数基础1.为什么要用函数? 2.数什么时候会被创建 3.多态及其优点第十七章 作用域1.作用域法则 2.变量名解析原则(LNGB) 3.函数嵌套 3.1工厂函数 3.2循环变量默认参数 4.用类保存状态 5.函数属性的状态

2017-09-22 14:29:05 252

原创 密码编码学初探——数论和有限域

基本术语:Euclid算法 域 群 环 素数 互素 模运算

2017-09-21 18:10:35 816

原创 密码编码学初探——分组加密技术(DES&AES)

基本术语:分组密码 混淆 扩散 Feistel结构 可逆映射 数据加密标准(DES [64位]) 高级加密标准(AES[128位])1.流密码与分组密码流密码:即一次只加密一个字节或者一位的加密方式。 分组密码:将明文分组作为整体加密,且常得到的是与明文等长的密文分组。可以发现流密码,严重依赖加密密钥。 分组密码与流密码一样,两个用户需要共享一个对称加密密钥。使用某些工作模式,分组密码可以获

2017-09-21 14:45:12 1350

原创 密码编码学初探——传统加密技术

1.基本概念: 密码学: 研究信息加密、解密和破密的科学。包括密码编码学和密码分析学。 密码编码学:研究如何对明文进行编码加密的科学。 密码分析学:研究如何破译密码的科学。2.传统加密技术 基本术语:替代 置换 单表替代 多表替代 栅栏密码 转轮机 隐写术 2.1单表替换的凯撒密码:abcdefghijklm0123456789101112nopqrstuvwxyz1

2017-09-21 11:57:23 3030

sublime Text3 python命令行配置(SublimeRepl)

https://blog.csdn.net/ml_1019/article/details/77149212 如文中描述功能,可以实现交互、快捷打开 REPL

2018-08-04

ETL面试题.docx

整理自 http://blog.csdn.net/tffits/article/details/60150027

2018-03-16

Informatica 数据解决方案官方文档2017

Informatica 数据解决方案官方文档2017,关于大数据/数据集成/数据安全/主数据的解决方案。

2018-02-07

ORACLE_SQL练手 脚本

ORACLE_SQL练手/ORACLE_SQL经典查练手 对应脚本 对应习题:http://download.csdn.net/download/ml_1019/10242292 感谢:http://blog.csdn.net/chinahuyong/article/details/6576036 提供的源码,本资源是经过抽取和整理的,希望大家可以共同进步。

2018-02-07

ORACLE_SQL练手 5篇

经典习题,搭配 http://blog.csdn.net/ml_1019/article/details/79257438 味更美。

2018-02-06

python数据清洗Pandas指导手册

python数据清洗Pandas指导手册,有详细的方法使用事例,可以通过IPython Notebook打开

2018-01-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除