自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

公众号:瑞行AI

欢迎关注公众号瑞行AI,算法交流学习、算法咨询服务

  • 博客(38)
  • 资源 (9)
  • 收藏
  • 关注

原创 Python可视化库matplotlib库各种图demo

关联分析、数值比较:散点图、曲线图分布分析:灰度图、密度图涉及分类的分析:柱状图、箱式图核密度估计(Kernel density estimation),是一种用于估计概率密度函数的非参数方法,采用平滑的峰值函数(“核”)来拟合观察到的数据点,从而对真实的概率分布曲线进行模拟。 https://en.wikipedia.org/wiki/Kernel_density_estimation核密

2017-10-27 19:41:26 8670

原创 Python统计分析库statsmodels的OLS

statsmodels库官方文档http://www.statsmodels.org/stable/,里面包含很多统计模型和相应计算结果;比较有意思的Linear Regression Models例子http://www.statsmodels.org/stable/examples/index.html#regression下面主要陈述回归常用的分析中OLS:Ordinary Least Squ

2017-10-27 14:35:52 102349 2

原创 Python可视化库matplotlib(基础整理)

绘制基本曲线使用plot函数绘制函数曲线,可以调整plot函数参数配置曲线样式、粗细、颜色、标记等设置坐标轴(1.)spines移动坐标轴(2.)xlim方法设置坐标轴刻度取值范围(3.)xticks,yticks方法设置x,y轴的刻度标签值(4.)title方法设置标题,xlabel,ylabel方法设置坐标轴描述设置图片上的描述(1.)text方法设置图片上的文字描述和注解(2.)annotat

2017-10-25 17:50:08 19108 2

原创 Pandas库分析处理链家出租房(实验)

载入数据import pandas as pdlj_data = pd.read_csv('./LJdata.csv')lj_data.head(2) 规范一点,用英文的column name,这样免去了后续的一些问题(主要是编码问题)lj_data.columnsIndex(['区域', '地址', '标题', '户型', '面积', '价格', '楼层', '建造时间', '朝向', '更

2017-10-25 04:54:31 1276

原创 递归栈(hanoi问题)

下面以三层hanoi为例,说明递归过程运行的层次。(一、)“三层hanoi问题”描述: 有三个分别命名为X,Y,ZX,Y,Z的塔座,在XX上有3个直径大小各不相同、依次编号为1,2,3的圆盘,现要求将XX轴上的3个圆盘移至ZZ上,并仍按同样顺序叠排,圆盘移动时必须遵循下列规则: 1.)每次只能移动一个圆盘 2.)圆盘可以插在X,Y,ZX,Y,Z中的任一塔座上 3.)任何时刻都不能将一个较大的

2017-10-23 00:14:16 366

原创 Python3pandas库DataFrame的分组,拼接,统计运算等用法(基础整理)

import pandas as pdimport numpy as npsalaries=pd.DataFrame({ 'name':['BOSS','Lilei','Lilei','Han','BOSS','BOSS','Han','BOSS'], 'Year':[2016,2016,2016,2016,2017,2017,2017,2017], 'Salary':[

2017-10-21 02:43:56 34533 1

原创 Python3pandas库transform用法

import pandas as pdimport numpy as npA=np.array([[1,2,3,4,5],[2,1,1,2,2],[1,2,3,4,5],[2,1,1,2,2],[1,2,3,4,5]])data=pd.DataFrame(A,index=['li','chen','wang','zhao','qian'],columns=['a','b','c','d','e

2017-10-21 00:42:58 19473

原创 条件随机场conditional random field(待整理)

本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将conditional random field简称CRF。

2017-10-20 19:18:32 557

原创 隐马尔可夫模型hidden Markov model

本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将hidden Markov model简称HMM。HMM是一种用于标注问题的生存模型,模型工作过程:“隐藏的马尔科夫链”随机生成“不可观测的状态序列”,“每个状态”生成“一个观测”,从而得“观测序列”。在标注问题中,给定“最终的观测序列”,预测其对应的“状态序列”,也称为“标记序列”。可以把整个过程想象成一个网络层,各个状态点和观测点表示网

2017-10-20 19:16:39 812

原创 Python3pandas库DataFrame用法(基础整理)

创建一个DataFrame(1)用字典dict,字典值value是列表list(2)用Series构建DataFrame(3)用一个字典构成的列表list of dicts来构建DataFrame广播特性定位DataFrame里的元素(1)利用表达式boolean定位(2)利用loc,iloc,ix函数定位可以定位数字,就可以赋值...

2017-10-18 18:06:44 18447

原创 Python3pandas库Series用法(基础整理)

构造/初始化Series的3种方法:(1)用列表list构建Seriesimport pandas as pdmy_list=[7,'Beijing','19大',3.1415,-10000,'Happy']s=pd.Series(my_list)print(type(s))print(s)<class 'pandas.core.series.Series'>0 71

2017-10-18 02:41:03 28512 1

原创 EM算法expection maximization

本文是《统计学习方法》李航著学习笔记。

2017-10-17 18:38:42 676

原创 Python豆瓣静态网页抓取,lxml解析和显示(实验)

联系网页https://movie.douban.com/review/best/ Python源码:import sysimport requestsimport timeurl='https://movie.douban.com/review/best/'data=requests.get(url)print(data.encoding)print(data.status_code

2017-10-17 00:58:06 565

原创 Python3网络爬虫框架库scrapy

scrapy是一个爬虫框架,官方说明文件参考: https://doc.scrapy.org/en/master/topics/architecture.html 自己配置scrapy的用户会了解到scrapy是基于Twisted配置的,scrapy使用Twisted这个异步网络库来处理网络通讯。scrapy对同一域名允许最多8个并发下载,每2次下载之间没有延时,所以很容易被检测到遭封禁。scr

2017-10-16 19:02:01 645

原创 C++ static关键字相关

static最重要的作用:隐藏。(static函数,static变量 均可)当同时编译多个文件时,所有 未加static前缀的 全局变量和函数, 都是 全局可见的。如果加了static,就会对其它源文件隐藏。利用这一特性 可以在不同的文件中 定义同名函数和同名变量,而不必担心命名冲突。//同一个项目里的两个源文件a.cpp和main.cpp,对于a.cpp里的变量a 在main.cpp里直接使用//如果不采用main.cpp包含a.h的方式,需要先extern声明//a.cppchar a.

2017-10-13 22:44:50 273

原创 Python3.5.2爬虫框架库Scrapy安装,Twisted安装

Win7操作系统里Python的API更新不匹配真是坑爹啊,再加上API开发与Python的版本不一致。。。Twisted和Python3.5.2绝对是有仇。。。 本文主要记录Win7(64位)操作系统,Python3.5.2安装Scrapy库需要wheel库、Twisted库等,主要麻烦是Twisted库更新与wheel和Scrapy端口不匹配。。。首先,去https://pypi.pyt...

2017-10-12 21:56:24 1401 1

原创 Python数据抓取——多线程,异步

本文主要是为了加快数据抓取任务,考虑使用多进程、多线程、异步原理,相关概念可以参考 https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013868322563729e03f6905ea94f0195528e3647887415000操作系统可以同时运行多个任务。首先,考虑单核CP

2017-10-12 18:08:53 19410 6

原创 客户端与服务端架构

常见架构:C/S架构:Client/Server(客户端/服务器)结构 需要服务器端部署;用户单独安装客户端,客户端软件升级,服务器端要为每个用户服务!!!可以单机不连网使用。 B/S架构:Browser/Server(浏览器/服务器)结构 需要服务器端部署;浏览器访问;服务器端负责全部逻辑;升级方便;必须连网使用。 CS/BS本质相同,都是客户端与服务器通信,只是表现为不同的形式,

2017-10-12 03:59:16 16342

原创 Python网页测试库selenium,动态网页抓取

selenium是自动化网页测试工具,它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,使用selenium需要浏览器版本与selenium版本匹配,同时配合浏览器驱动便可实现Web界面的测试,也就是 selenium 支持这些浏览器驱动。 首先,在命令行窗口安装selenium库:pip install selenium, 通过命令:pip show se

2017-10-11 23:53:55 2849

原创 Python静态网页解析库Bequtifulsoup4

Beautifulsoup4是用于解析html文本的Python库,官方指南参考 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlfind, select方法:用CSS定位器查找html元素# coding:utf-8import requestsfrom bs4 import BeautifulSoup

2017-10-11 14:59:06 773

原创 Python网页请求库Requests

Requests库官方中文文档 http://cn.python-requests.org/zh_CN/latest/# coding:utf-8 Python2加# 用requests库发送各种请求import requests#Requests拥有了urllib3的所有特性,Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码

2017-10-10 21:01:40 816

原创 HTML网页源码,CSS定位

HTML 是用来描述网页的一种语言。HTML 指的是超文本标记语言 (Hyper Text Markup Language)。HTML 不是一种编程语言,而是一种标记语言 (markup language)。标记语言是一套标记标签 (markup tag)。HTML 使用标记标签来描述网页。Web 浏览器的作用是读取 HTML 文档,并以网页的形式显示出它们。浏览器不会显示 HTML 标签,而是使用

2017-10-10 15:49:07 6037

原创 提升方法boosting

本文是《统计学习方法》李航著学习笔记。

2017-10-10 02:33:54 851 1

原创 Python3数据分析处理库pandas

用pandas封装函数对数据进行读取,预处理,数据分析等操作。 pandas库是基于numpy库编写的, 在命令行窗口安装完numpy后,安装pandas:pip install pandas。通常需要pandas读取的数据文件的文本格式为.txt,.csv,.json pandas里定义的数据类型: (1.)object字符值(2.)int整型(3.)float浮点型(4.)datatime

2017-10-06 19:00:56 4065

原创 Python3科学计算库numpy

把数据转换成矩阵的形式,用numpy封装函数对矩阵进行操作。 这里写链接内容example=open('drink.txt','w+') ##写一个数据文件drink.txtexample.write('Year,WHO_Region,Country,Beverage Types,Display Value\\n1986,Western Pacific,Viet Nam,Wine,0\\n1

2017-10-05 23:35:28 1091

原创 支持向量机support vector machines

本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将support vector machines简称SVM。SVM是一种二类分类模型,利用SVM对预测实例点进行分类就是根据决策函数的符号划归正负类,下面论述过程主要是有关SVM的模型学习过程。通常针对三种情况构建SVM学习模型: 1.)对线性可分数据集,构建硬间隔最大化的线性可分支持向量机 2.)对存在一些特异点的近似线性可分数据集,构建

2017-10-04 20:20:19 2321

原创 Python3的builtwith模块修改

builtwith模块是Python里的网站技术信息查询工具,开发团队来自于澳大利亚。利用该网站所提供的功能,你可以查询出某网站背后是由哪些技术来支持的,比如操作系统的类型、所采用的访问量统计服务、采用的发布平台、广告平台、语言框架、聚合功能、页面文档信息、网站编码及操作系统信息等等。可帮助更深一层次了解该网站的运营情况。但builtwith模块是在 Python2 环境下开发的,Python3 的

2017-10-04 13:08:49 455

原创 Python面向对象(二):字段、方法、(属性)

静态字段在内存中只保存一份 普通字段在每个对象中都要保存一份class Company: place='America' #静态字段 def __init__(self,name): self.name=name #普通字段obj=Company('Google')print(obj.name) #直接访问普通字段print(Compa...

2017-10-03 22:21:41 1102

原创 Python3网页抓取urllib

爬虫

2017-10-03 22:20:56 521

原创 用U盘安装Ubuntu16.4版本Linux

很多书和博文都是用光盘刻录安装Linux的,由于手上没光盘就拿U盘代替了,大概安装步骤如下: 1.去Ubuntu官网www.ubuntu.com 下载latest版本desktop镜像文件 2.百度下载个硬盘写入软件UltraISO,然后安装试用版就行 3.使用UltraISO:文件——>打开Ubuntu,启动——>写入硬盘映像 4.写入等几分钟就可以了 5.写好后的U盘如下图 6.重启

2017-10-03 17:09:35 2125

原创 逻辑斯谛回归与最大熵模型logistic regression/maximum entropy model

本文是《统计学习方法》李航著学习笔记。 为了叙述方便,将logistic regression mode简称LR,maximum entropy mode简称ME。LR和ME都是判别模型,即将预测实例点分配到“条件概率分布”最大的类中。下述讨论会着重于LR模型和ME模型的学习过程。 逻辑斯谛函数: l(x)=11+e−(x−μ)/γ,μ为位置参数,γ>0为形状参数l(x)=\frac{1}{1

2017-10-02 22:39:07 1799

原创 概率统计、数值优化算法

概率统计: 样本空间:一个随机试验(或随机事件)所有可能结果的集合 样本点:随机试验中的每个可能结果 随机变量:本质上是一个实值函数映射,即为每一个实验的结果映射为一个数值。注意区别“随机变量”的定义与“随机变量取值的概率”的定义. Eg:在抛一枚均匀的硬币过程中,将正面映射为1,反面映射为0,则随机变量X的定义为X(正面)=1,X(反面)=0。此

2017-10-02 21:14:19 2386

原创 Tensorflow基本用法

模型跑起来需要两步:(1)描绘整幅图Graph(2)在Session中执行图里的运算

2017-10-02 21:06:12 5141 2

原创 C++的五种内存分配区域

C/C++编译的程序 所占用内存区域 一般分为以下5个部分:栈区(stack):由编译器自动分配和释放,用来存放函数的参数、局部变量等。其操作方式类似于数据结构中的栈。堆区(heap):一般由程序员分配和释放(通过malloc/free、new/delete),若程序员没有释放,则程序结束时由操作系统回收。它与数据结构中的堆是两回事,分配方式类似于链表。全局/静态区:全局变量和静态变量的存储是放在一块的,(1)初始化的全局变量和初始化的静态变量在一块区域,(2)未初始化的全局变量和未初始化的静态变量在

2017-10-02 20:28:29 744

原创 Python3文件读写打开方法

在Python里,可以把文件看成文件的对象。Python文件打开方式openPython文件读取方式read/readline/readlinesPython文件写入方式write/writelines

2017-10-02 19:44:13 2533

原创 数字图像处理——轮廓

本文内容参考《数字图像处理基础》Wilhelm Burger等著。 根据图像数组获得边缘检测信息,然后循着已检测到的边缘点找到轮廓线。轮廓跟踪:从那些边缘强度较大的地方开始,沿着两个不同方向跟踪边缘点,直到这两条轨迹相遇并形成一条闭合的轮廓线。(灰度梯度弱——>边缘消失;交叉边缘——>歧义)边缘图:通过“阈值运算”对一个“图像像素”是否属于边缘点做“二值判断”(这里需要被判断的“图像像素”是指由“

2017-10-02 18:09:34 1937

原创 数字图像处理——边缘检测

本文内容参考《数字图像处理基础》Wilhelm Burger等著。 边缘:图像中那些沿某一方向局部强度变化显著的位置。局部强度变化越强烈,越能证明这一位置存在边缘。基于梯度的边缘检测:将图像矩阵的一行灰度变化看作一个一维函数f(x)f(x),则像素变化就是f′(x)=dfdx(x)f^{'}(x)=\frac{df}{dx}(x)。对于离散函数f(u)f(u),用中心差分公式粗略估计点uu处的切

2017-10-02 17:27:49 2510

原创 数字图像处理——滤波器

本文内容参考《数字图像处理基础》Wilhelm Burger等著。 “点运算”是在不改变图像大小、几何形状以及局部结构的情况下,对像素值进行修改,新图像的像素值只与原图像同一位置的像素值有关。 “滤波器”一般会用到原图像中的多个像素来计算每个新像素,一个滤波器用一个“滤波矩阵”(或“滤波模板”)表示,它的重要参数包括“滤波区域的尺寸”、“滤波区域的形状”。线性滤波器:一、平滑滤波器:将图像中某一

2017-10-01 21:54:46 5319

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率,用矩估计估计出来的参数alpha和beta,再把相应的给ctr计算做平滑,实验证明,使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据,类似一句话是一个文本序列,通常可以直接使用word2vec编码,同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本,现在tensorflow架构里限制整个流程瓶颈的是数据IO,用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取,有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据,demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

cnews.zip 新浪新闻RSS订阅频道10类文本数据

数据集是清华大学根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成。数据集一共包括10类新闻,每类新闻65000条文本数据,训练集50000条,测试集10000条,验证集5000条。

2019-07-17

SI4安装及破解文件.zip

非常好用的适合撰写如C/C++或Java等程序语言的编辑器,可以自动列出程序的变量,量数等。

2019-06-28

cooking.stackexchange.tar.gz

Stack exchange 网站的烹饪部分下载问题示例及其相应标签数据集,用于fastText模型训练

2019-06-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除