- 博客(38)
- 资源 (9)
- 收藏
- 关注
原创 Python可视化库matplotlib库各种图demo
关联分析、数值比较:散点图、曲线图分布分析:灰度图、密度图涉及分类的分析:柱状图、箱式图核密度估计(Kernel density estimation),是一种用于估计概率密度函数的非参数方法,采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。 https://en.wikipedia.org/wiki/Kernel_density_estimation核密
2017-10-27 19:41:26 8670
原创 Python统计分析库statsmodels的OLS
statsmodels库官方文档http://www.statsmodels.org/stable/,里面包含很多统计模型和相应计算结果;比较有意思的Linear Regression Models例子http://www.statsmodels.org/stable/examples/index.html#regression下面主要陈述回归常用的分析中OLS:Ordinary Least Squ
2017-10-27 14:35:52 102349 2
原创 Python可视化库matplotlib(基础整理)
绘制基本曲线使用plot函数绘制函数曲线,可以调整plot函数参数配置曲线样式、粗细、颜色、标记等设置坐标轴(1.)spines移动坐标轴(2.)xlim方法设置坐标轴刻度取值范围(3.)xticks,yticks方法设置x,y轴的刻度标签值(4.)title方法设置标题,xlabel,ylabel方法设置坐标轴描述设置图片上的描述(1.)text方法设置图片上的文字描述和注解(2.)annotat
2017-10-25 17:50:08 19108 2
原创 Pandas库分析处理链家出租房(实验)
载入数据import pandas as pdlj_data = pd.read_csv('./LJdata.csv')lj_data.head(2) 规范一点,用英文的column name,这样免去了后续的一些问题(主要是编码问题)lj_data.columnsIndex(['区域', '地址', '标题', '户型', '面积', '价格', '楼层', '建造时间', '朝向', '更
2017-10-25 04:54:31 1276
原创 递归栈(hanoi问题)
下面以三层hanoi为例,说明递归过程运行的层次。(一、)“三层hanoi问题”描述: 有三个分别命名为X,Y,ZX,Y,Z的塔座,在XX上有3个直径大小各不相同、依次编号为1,2,3的圆盘,现要求将XX轴上的3个圆盘移至ZZ上,并仍按同样顺序叠排,圆盘移动时必须遵循下列规则: 1.)每次只能移动一个圆盘 2.)圆盘可以插在X,Y,ZX,Y,Z中的任一塔座上 3.)任何时刻都不能将一个较大的
2017-10-23 00:14:16 366
原创 Python3pandas库DataFrame的分组,拼接,统计运算等用法(基础整理)
import pandas as pdimport numpy as npsalaries=pd.DataFrame({ 'name':['BOSS','Lilei','Lilei','Han','BOSS','BOSS','Han','BOSS'], 'Year':[2016,2016,2016,2016,2017,2017,2017,2017], 'Salary':[
2017-10-21 02:43:56 34533 1
原创 Python3pandas库transform用法
import pandas as pdimport numpy as npA=np.array([[1,2,3,4,5],[2,1,1,2,2],[1,2,3,4,5],[2,1,1,2,2],[1,2,3,4,5]])data=pd.DataFrame(A,index=['li','chen','wang','zhao','qian'],columns=['a','b','c','d','e
2017-10-21 00:42:58 19473
原创 条件随机场conditional random field(待整理)
本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将conditional random field简称CRF。
2017-10-20 19:18:32 557
原创 隐马尔可夫模型hidden Markov model
本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将hidden Markov model简称HMM。HMM是一种用于标注问题的生存模型,模型工作过程:“隐藏的马尔科夫链”随机生成“不可观测的状态序列”,“每个状态”生成“一个观测”,从而得“观测序列”。在标注问题中,给定“最终的观测序列”,预测其对应的“状态序列”,也称为“标记序列”。可以把整个过程想象成一个网络层,各个状态点和观测点表示网
2017-10-20 19:16:39 812
原创 Python3pandas库DataFrame用法(基础整理)
创建一个DataFrame(1)用字典dict,字典值value是列表list(2)用Series构建DataFrame(3)用一个字典构成的列表list of dicts来构建DataFrame广播特性定位DataFrame里的元素(1)利用表达式boolean定位(2)利用loc,iloc,ix函数定位可以定位数字,就可以赋值...
2017-10-18 18:06:44 18447
原创 Python3pandas库Series用法(基础整理)
构造/初始化Series的3种方法:(1)用列表list构建Seriesimport pandas as pdmy_list=[7,'Beijing','19大',3.1415,-10000,'Happy']s=pd.Series(my_list)print(type(s))print(s)<class 'pandas.core.series.Series'>0 71
2017-10-18 02:41:03 28512 1
原创 Python豆瓣静态网页抓取,lxml解析和显示(实验)
联系网页https://movie.douban.com/review/best/ Python源码:import sysimport requestsimport timeurl='https://movie.douban.com/review/best/'data=requests.get(url)print(data.encoding)print(data.status_code
2017-10-17 00:58:06 565
原创 Python3网络爬虫框架库scrapy
scrapy是一个爬虫框架,官方说明文件参考: https://doc.scrapy.org/en/master/topics/architecture.html 自己配置scrapy的用户会了解到scrapy是基于Twisted配置的,scrapy使用Twisted这个异步网络库来处理网络通讯。scrapy对同一域名允许最多8个并发下载,每2次下载之间没有延时,所以很容易被检测到遭封禁。scr
2017-10-16 19:02:01 645
原创 C++ static关键字相关
static最重要的作用:隐藏。(static函数,static变量 均可)当同时编译多个文件时,所有 未加static前缀的 全局变量和函数, 都是 全局可见的。如果加了static,就会对其它源文件隐藏。利用这一特性 可以在不同的文件中 定义同名函数和同名变量,而不必担心命名冲突。//同一个项目里的两个源文件a.cpp和main.cpp,对于a.cpp里的变量a 在main.cpp里直接使用//如果不采用main.cpp包含a.h的方式,需要先extern声明//a.cppchar a.
2017-10-13 22:44:50 273
原创 Python3.5.2爬虫框架库Scrapy安装,Twisted安装
Win7操作系统里Python的API更新不匹配真是坑爹啊,再加上API开发与Python的版本不一致。。。Twisted和Python3.5.2绝对是有仇。。。 本文主要记录Win7(64位)操作系统,Python3.5.2安装Scrapy库需要wheel库、Twisted库等,主要麻烦是Twisted库更新与wheel和Scrapy端口不匹配。。。首先,去https://pypi.pyt...
2017-10-12 21:56:24 1401 1
原创 Python数据抓取——多线程,异步
本文主要是为了加快数据抓取任务,考虑使用多进程、多线程、异步原理,相关概念可以参考 https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013868322563729e03f6905ea94f0195528e3647887415000操作系统可以同时运行多个任务。首先,考虑单核CP
2017-10-12 18:08:53 19410 6
原创 客户端与服务端架构
常见架构:C/S架构:Client/Server(客户端/服务器)结构 需要服务器端部署;用户单独安装客户端,客户端软件升级,服务器端要为每个用户服务!!!可以单机不连网使用。 B/S架构:Browser/Server(浏览器/服务器)结构 需要服务器端部署;浏览器访问;服务器端负责全部逻辑;升级方便;必须连网使用。 CS/BS本质相同,都是客户端与服务器通信,只是表现为不同的形式,
2017-10-12 03:59:16 16342
原创 Python网页测试库selenium,动态网页抓取
selenium是自动化网页测试工具,它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,使用selenium需要浏览器版本与selenium版本匹配,同时配合浏览器驱动便可实现Web界面的测试,也就是 selenium 支持这些浏览器驱动。 首先,在命令行窗口安装selenium库:pip install selenium, 通过命令:pip show se
2017-10-11 23:53:55 2849
原创 Python静态网页解析库Bequtifulsoup4
Beautifulsoup4是用于解析html文本的Python库,官方指南参考 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlfind, select方法:用CSS定位器查找html元素# coding:utf-8import requestsfrom bs4 import BeautifulSoup
2017-10-11 14:59:06 773
原创 Python网页请求库Requests
Requests库官方中文文档 http://cn.python-requests.org/zh_CN/latest/# coding:utf-8 Python2加# 用requests库发送各种请求import requests#Requests拥有了urllib3的所有特性,Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码
2017-10-10 21:01:40 816
原创 HTML网页源码,CSS定位
HTML 是用来描述网页的一种语言。HTML 指的是超文本标记语言 (Hyper Text Markup Language)。HTML 不是一种编程语言,而是一种标记语言 (markup language)。标记语言是一套标记标签 (markup tag)。HTML 使用标记标签来描述网页。Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用
2017-10-10 15:49:07 6037
原创 Python3数据分析处理库pandas
用pandas封装函数对数据进行读取,预处理,数据分析等操作。 pandas库是基于numpy库编写的, 在命令行窗口安装完numpy后,安装pandas:pip install pandas。通常需要pandas读取的数据文件的文本格式为.txt,.csv,.json pandas里定义的数据类型: (1.)object字符值(2.)int整型(3.)float浮点型(4.)datatime
2017-10-06 19:00:56 4065
原创 Python3科学计算库numpy
把数据转换成矩阵的形式,用numpy封装函数对矩阵进行操作。 这里写链接内容example=open('drink.txt','w+') ##写一个数据文件drink.txtexample.write('Year,WHO_Region,Country,Beverage Types,Display Value\\n1986,Western Pacific,Viet Nam,Wine,0\\n1
2017-10-05 23:35:28 1091
原创 支持向量机support vector machines
本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将support vector machines简称SVM。SVM是一种二类分类模型,利用SVM对预测实例点进行分类就是根据决策函数的符号划归正负类,下面论述过程主要是有关SVM的模型学习过程。通常针对三种情况构建SVM学习模型: 1.)对线性可分数据集,构建硬间隔最大化的线性可分支持向量机 2.)对存在一些特异点的近似线性可分数据集,构建
2017-10-04 20:20:19 2321
原创 Python3的builtwith模块修改
builtwith模块是Python里的网站技术信息查询工具,开发团队来自于澳大利亚。利用该网站所提供的功能,你可以查询出某网站背后是由哪些技术来支持的,比如操作系统的类型、所采用的访问量统计服务、采用的发布平台、广告平台、语言框架、聚合功能、页面文档信息、网站编码及操作系统信息等等。可帮助更深一层次了解该网站的运营情况。但builtwith模块是在 Python2 环境下开发的,Python3 的
2017-10-04 13:08:49 455
原创 Python面向对象(二):字段、方法、(属性)
静态字段在内存中只保存一份 普通字段在每个对象中都要保存一份class Company: place='America' #静态字段 def __init__(self,name): self.name=name #普通字段obj=Company('Google')print(obj.name) #直接访问普通字段print(Compa...
2017-10-03 22:21:41 1102
原创 用U盘安装Ubuntu16.4版本Linux
很多书和博文都是用光盘刻录安装Linux的,由于手上没光盘就拿U盘代替了,大概安装步骤如下: 1.去Ubuntu官网www.ubuntu.com 下载latest版本desktop镜像文件 2.百度下载个硬盘写入软件UltraISO,然后安装试用版就行 3.使用UltraISO:文件——>打开Ubuntu,启动——>写入硬盘映像 4.写入等几分钟就可以了 5.写好后的U盘如下图 6.重启
2017-10-03 17:09:35 2125
原创 逻辑斯谛回归与最大熵模型logistic regression/maximum entropy model
本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将logistic regression mode简称LR,maximum entropy mode简称ME。LR和ME都是判别模型,即将预测实例点分配到“条件概率分布”最大的类中。下述讨论会着重于LR模型和ME模型的学习过程。 逻辑斯谛函数: l(x)=11+e−(x−μ)/γ,μ为位置参数,γ>0为形状参数l(x)=\frac{1}{1
2017-10-02 22:39:07 1799
原创 概率统计、数值优化算法
概率统计: 样本空间:一个随机试验(或随机事件)所有可能结果的集合 样本点:随机试验中的每个可能结果 随机变量:本质上是一个实值函数映射,即为每一个实验的结果映射为一个数值。注意区别“随机变量”的定义与“随机变量取值的概率”的定义. Eg:在抛一枚均匀的硬币过程中,将正面映射为1,反面映射为0,则随机变量X的定义为X(正面)=1,X(反面)=0。此
2017-10-02 21:14:19 2386
原创 C++的五种内存分配区域
C/C++编译的程序 所占用内存区域 一般分为以下5个部分:栈区(stack):由编译器自动分配和释放,用来存放函数的参数、局部变量等。其操作方式类似于数据结构中的栈。堆区(heap):一般由程序员分配和释放(通过malloc/free、new/delete),若程序员没有释放,则程序结束时由操作系统回收。它与数据结构中的堆是两回事,分配方式类似于链表。全局/静态区:全局变量和静态变量的存储是放在一块的,(1)初始化的全局变量和初始化的静态变量在一块区域,(2)未初始化的全局变量和未初始化的静态变量在
2017-10-02 20:28:29 744
原创 Python3文件读写打开方法
在Python里,可以把文件看成文件的对象。Python文件打开方式openPython文件读取方式read/readline/readlinesPython文件写入方式write/writelines
2017-10-02 19:44:13 2533
原创 数字图像处理——轮廓
本文内容参考《数字图像处理基础》Wilhelm Burger等著。 根据图像数组获得边缘检测信息,然后循着已检测到的边缘点找到轮廓线。轮廓跟踪:从那些边缘强度较大的地方开始,沿着两个不同方向跟踪边缘点,直到这两条轨迹相遇并形成一条闭合的轮廓线。(灰度梯度弱——>边缘消失;交叉边缘——>歧义)边缘图:通过“阈值运算”对一个“图像像素”是否属于边缘点做“二值判断”(这里需要被判断的“图像像素”是指由“
2017-10-02 18:09:34 1937
原创 数字图像处理——边缘检测
本文内容参考《数字图像处理基础》Wilhelm Burger等著。 边缘:图像中那些沿某一方向局部强度变化显著的位置。局部强度变化越强烈,越能证明这一位置存在边缘。基于梯度的边缘检测:将图像矩阵的一行灰度变化看作一个一维函数f(x)f(x),则像素变化就是f′(x)=dfdx(x)f^{'}(x)=\frac{df}{dx}(x)。对于离散函数f(u)f(u),用中心差分公式粗略估计点uu处的切
2017-10-02 17:27:49 2510
原创 数字图像处理——滤波器
本文内容参考《数字图像处理基础》Wilhelm Burger等著。 “点运算”是在不改变图像大小、几何形状以及局部结构的情况下,对像素值进行修改,新图像的像素值只与原图像同一位置的像素值有关。 “滤波器”一般会用到原图像中的多个像素来计算每个新像素,一个滤波器用一个“滤波矩阵”(或“滤波模板”)表示,它的重要参数包括“滤波区域的尺寸”、“滤波区域的形状”。线性滤波器:一、平滑滤波器:将图像中某一
2017-10-01 21:54:46 5319
test_ctr.zip
2020-05-29
underexpose_train.zip
2020-05-29
tfrecord数据.zip
2020-05-17
word2vec.zip
2019-09-19
README.md文档
2019-08-19
cnews.zip 新浪新闻RSS订阅频道10类文本数据
2019-07-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人