2017年10月_thinker_1120

12月 11月 10月 09月 08月

原创 Python可视化库matplotlib库各种图demo

关联分析、数值比较：散点图、曲线图分布分析：灰度图、密度图涉及分类的分析：柱状图、箱式图核密度估计（Kernel density estimation），是一种用于估计概率密度函数的非参数方法，采用平滑的峰值函数(“核”)来拟合观察到的数据点，从而对真实的概率分布曲线进行模拟。 https://en.wikipedia.org/wiki/Kernel_density_estimation核密

2017-10-27 19:41:26 8670

原创 Python统计分析库statsmodels的OLS

statsmodels库官方文档http://www.statsmodels.org/stable/，里面包含很多统计模型和相应计算结果；比较有意思的Linear Regression Models例子http://www.statsmodels.org/stable/examples/index.html#regression下面主要陈述回归常用的分析中OLS:Ordinary Least Squ

2017-10-27 14:35:52 102349 2

原创 Python可视化库matplotlib(基础整理)

绘制基本曲线使用plot函数绘制函数曲线，可以调整plot函数参数配置曲线样式、粗细、颜色、标记等设置坐标轴(1.)spines移动坐标轴(2.)xlim方法设置坐标轴刻度取值范围(3.)xticks,yticks方法设置x,y轴的刻度标签值(4.)title方法设置标题，xlabel,ylabel方法设置坐标轴描述设置图片上的描述(1.)text方法设置图片上的文字描述和注解(2.)annotat

2017-10-25 17:50:08 19108 2

原创 Pandas库分析处理链家出租房(实验)

载入数据import pandas as pdlj_data = pd.read_csv('./LJdata.csv')lj_data.head(2) 规范一点，用英文的column name，这样免去了后续的一些问题(主要是编码问题)lj_data.columnsIndex(['区域', '地址', '标题', '户型', '面积', '价格', '楼层', '建造时间', '朝向', '更

2017-10-25 04:54:31 1276

原创递归栈（hanoi问题）

下面以三层hanoi为例，说明递归过程运行的层次。（一、）“三层hanoi问题”描述：有三个分别命名为X,Y,ZX,Y,Z的塔座，在XX上有3个直径大小各不相同、依次编号为1,2,3的圆盘，现要求将XX轴上的3个圆盘移至ZZ上，并仍按同样顺序叠排，圆盘移动时必须遵循下列规则： 1.）每次只能移动一个圆盘 2.）圆盘可以插在X,Y,ZX,Y,Z中的任一塔座上 3.）任何时刻都不能将一个较大的

2017-10-23 00:14:16 366

原创 Python3pandas库DataFrame的分组,拼接,统计运算等用法(基础整理)

import pandas as pdimport numpy as npsalaries=pd.DataFrame({ 'name':['BOSS','Lilei','Lilei','Han','BOSS','BOSS','Han','BOSS'], 'Year':[2016,2016,2016,2016,2017,2017,2017,2017], 'Salary':[

2017-10-21 02:43:56 34533 1

原创 Python3pandas库transform用法

import pandas as pdimport numpy as npA=np.array([[1,2,3,4,5],[2,1,1,2,2],[1,2,3,4,5],[2,1,1,2,2],[1,2,3,4,5]])data=pd.DataFrame(A,index=['li','chen','wang','zhao','qian'],columns=['a','b','c','d','e

2017-10-21 00:42:58 19473

原创条件随机场conditional random field（待整理）

本文是《统计学习方法》李航著学习笔记。为了叙述方便，将conditional random field简称CRF。

2017-10-20 19:18:32 557

原创隐马尔可夫模型hidden Markov model

本文是《统计学习方法》李航著学习笔记。为了叙述方便，将hidden Markov model简称HMM。HMM是一种用于标注问题的生存模型，模型工作过程：“隐藏的马尔科夫链”随机生成“不可观测的状态序列”，“每个状态”生成“一个观测”，从而得“观测序列”。在标注问题中，给定“最终的观测序列”，预测其对应的“状态序列”，也称为“标记序列”。可以把整个过程想象成一个网络层，各个状态点和观测点表示网

2017-10-20 19:16:39 812

原创 Python3pandas库DataFrame用法(基础整理)

创建一个DataFrame（1）用字典dict，字典值value是列表list（2）用Series构建DataFrame（3）用一个字典构成的列表list of dicts来构建DataFrame广播特性定位DataFrame里的元素（1）利用表达式boolean定位（2）利用loc，iloc，ix函数定位可以定位数字,就可以赋值...

2017-10-18 18:06:44 18447

原创 Python3pandas库Series用法(基础整理)

构造/初始化Series的3种方法：（1）用列表list构建Seriesimport pandas as pdmy_list=[7,'Beijing','19大',3.1415,-10000,'Happy']s=pd.Series(my_list)print(type(s))print(s)<class 'pandas.core.series.Series'>0 71

2017-10-18 02:41:03 28512 1

原创 EM算法expection maximization

本文是《统计学习方法》李航著学习笔记。

2017-10-17 18:38:42 676

原创 Python豆瓣静态网页抓取，lxml解析和显示(实验)

联系网页https://movie.douban.com/review/best/ Python源码：import sysimport requestsimport timeurl='https://movie.douban.com/review/best/'data=requests.get(url)print(data.encoding)print(data.status_code

2017-10-17 00:58:06 565

原创 Python3网络爬虫框架库scrapy

scrapy是一个爬虫框架，官方说明文件参考： https://doc.scrapy.org/en/master/topics/architecture.html 自己配置scrapy的用户会了解到scrapy是基于Twisted配置的，scrapy使用Twisted这个异步网络库来处理网络通讯。scrapy对同一域名允许最多8个并发下载，每2次下载之间没有延时，所以很容易被检测到遭封禁。scr

2017-10-16 19:02:01 645

原创 C++ static关键字相关

static最重要的作用：隐藏。（static函数，static变量均可）当同时编译多个文件时，所有未加static前缀的全局变量和函数，都是全局可见的。如果加了static，就会对其它源文件隐藏。利用这一特性可以在不同的文件中定义同名函数和同名变量，而不必担心命名冲突。//同一个项目里的两个源文件a.cpp和main.cpp，对于a.cpp里的变量a 在main.cpp里直接使用//如果不采用main.cpp包含a.h的方式，需要先extern声明//a.cppchar a.

2017-10-13 22:44:50 273

原创 Python3.5.2爬虫框架库Scrapy安装，Twisted安装

Win7操作系统里Python的API更新不匹配真是坑爹啊，再加上API开发与Python的版本不一致。。。Twisted和Python3.5.2绝对是有仇。。。本文主要记录Win7（64位）操作系统，Python3.5.2安装Scrapy库需要wheel库、Twisted库等，主要麻烦是Twisted库更新与wheel和Scrapy端口不匹配。。。首先，去https://pypi.pyt...

2017-10-12 21:56:24 1401 1

原创 Python数据抓取——多线程，异步

本文主要是为了加快数据抓取任务，考虑使用多进程、多线程、异步原理，相关概念可以参考 https://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/0013868322563729e03f6905ea94f0195528e3647887415000操作系统可以同时运行多个任务。首先，考虑单核CP

2017-10-12 18:08:53 19410 6

原创客户端与服务端架构

常见架构：C/S架构：Client/Server(客户端/服务器)结构需要服务器端部署；用户单独安装客户端，客户端软件升级，服务器端要为每个用户服务！！！可以单机不连网使用。 B/S架构：Browser/Server(浏览器/服务器)结构需要服务器端部署；浏览器访问；服务器端负责全部逻辑；升级方便；必须连网使用。 CS/BS本质相同，都是客户端与服务器通信，只是表现为不同的形式，

2017-10-12 03:59:16 16342

原创 Python网页测试库selenium，动态网页抓取

selenium是自动化网页测试工具，它支持各种浏览器，包括 Chrome，Safari，Firefox 等主流界面式浏览器，使用selenium需要浏览器版本与selenium版本匹配，同时配合浏览器驱动便可实现Web界面的测试，也就是 selenium 支持这些浏览器驱动。首先，在命令行窗口安装selenium库：pip install selenium，通过命令：pip show se

2017-10-11 23:53:55 2849

原创 Python静态网页解析库Bequtifulsoup4

Beautifulsoup4是用于解析html文本的Python库，官方指南参考 https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.htmlfind， select方法：用CSS定位器查找html元素# coding:utf-8import requestsfrom bs4 import BeautifulSoup

2017-10-11 14:59:06 773

原创 Python网页请求库Requests

Requests库官方中文文档 http://cn.python-requests.org/zh_CN/latest/# coding:utf-8 Python2加# 用requests库发送各种请求import requests#Requests拥有了urllib3的所有特性,Requests支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动确定响应内容的编码

2017-10-10 21:01:40 816

原创 HTML网页源码，CSS定位

HTML 是用来描述网页的一种语言。HTML 指的是超文本标记语言 (Hyper Text Markup Language)。HTML 不是一种编程语言，而是一种标记语言 (markup language)。标记语言是一套标记标签 (markup tag)。HTML 使用标记标签来描述网页。Web 浏览器的作用是读取 HTML 文档，并以网页的形式显示出它们。浏览器不会显示 HTML 标签，而是使用

2017-10-10 15:49:07 6037

原创提升方法boosting

本文是《统计学习方法》李航著学习笔记。

2017-10-10 02:33:54 851 1

原创 Python3数据分析处理库pandas

用pandas封装函数对数据进行读取，预处理，数据分析等操作。 pandas库是基于numpy库编写的，在命令行窗口安装完numpy后，安装pandas：pip install pandas。通常需要pandas读取的数据文件的文本格式为.txt，.csv，.json pandas里定义的数据类型：（1.）object字符值（2.）int整型（3.）float浮点型（4.）datatime

2017-10-06 19:00:56 4065

原创 Python3科学计算库numpy

把数据转换成矩阵的形式，用numpy封装函数对矩阵进行操作。这里写链接内容example=open('drink.txt','w+') ##写一个数据文件drink.txtexample.write('Year,WHO_Region,Country,Beverage Types,Display Value\\n1986,Western Pacific,Viet Nam,Wine,0\\n1

2017-10-05 23:35:28 1091

原创支持向量机support vector machines

本文是《统计学习方法》李航著学习笔记。为了叙述方便，将support vector machines简称SVM。SVM是一种二类分类模型，利用SVM对预测实例点进行分类就是根据决策函数的符号划归正负类，下面论述过程主要是有关SVM的模型学习过程。通常针对三种情况构建SVM学习模型： 1.）对线性可分数据集，构建硬间隔最大化的线性可分支持向量机 2.）对存在一些特异点的近似线性可分数据集，构建

2017-10-04 20:20:19 2321

原创 Python3的builtwith模块修改

builtwith模块是Python里的网站技术信息查询工具，开发团队来自于澳大利亚。利用该网站所提供的功能，你可以查询出某网站背后是由哪些技术来支持的，比如操作系统的类型、所采用的访问量统计服务、采用的发布平台、广告平台、语言框架、聚合功能、页面文档信息、网站编码及操作系统信息等等。可帮助更深一层次了解该网站的运营情况。但builtwith模块是在 Python2 环境下开发的，Python3 的

2017-10-04 13:08:49 455

原创 Python面向对象（二）：字段、方法、(属性)

静态字段在内存中只保存一份普通字段在每个对象中都要保存一份class Company: place='America' #静态字段 def __init__(self,name): self.name=name #普通字段obj=Company('Google')print(obj.name) #直接访问普通字段print(Compa...

2017-10-03 22:21:41 1102

原创 Python3网页抓取urllib

爬虫

2017-10-03 22:20:56 521

原创用U盘安装Ubuntu16.4版本Linux

很多书和博文都是用光盘刻录安装Linux的，由于手上没光盘就拿U盘代替了，大概安装步骤如下： 1.去Ubuntu官网www.ubuntu.com 下载latest版本desktop镜像文件 2.百度下载个硬盘写入软件UltraISO，然后安装试用版就行 3.使用UltraISO：文件——>打开Ubuntu,启动——>写入硬盘映像 4.写入等几分钟就可以了 5.写好后的U盘如下图 6.重启

2017-10-03 17:09:35 2125

原创逻辑斯谛回归与最大熵模型logistic regression/maximum entropy model

本文是《统计学习方法》李航著学习笔记。为了叙述方便，将logistic regression mode简称LR，maximum entropy mode简称ME。LR和ME都是判别模型，即将预测实例点分配到“条件概率分布”最大的类中。下述讨论会着重于LR模型和ME模型的学习过程。逻辑斯谛函数： l(x)=11+e−(x−μ)/γ，μ为位置参数，γ>0为形状参数l(x)=\frac{1}{1

2017-10-02 22:39:07 1799

原创概率统计、数值优化算法

概率统计：样本空间：一个随机试验（或随机事件）所有可能结果的集合样本点：随机试验中的每个可能结果随机变量：本质上是一个实值函数映射，即为每一个实验的结果映射为一个数值。注意区别“随机变量”的定义与“随机变量取值的概率”的定义. Eg:在抛一枚均匀的硬币过程中，将正面映射为1，反面映射为0，则随机变量X的定义为X(正面)=1，X(反面)=0。此

2017-10-02 21:14:19 2386

原创 Tensorflow基本用法

模型跑起来需要两步：（1）描绘整幅图Graph（2）在Session中执行图里的运算

2017-10-02 21:06:12 5141 2

原创 C++的五种内存分配区域

C/C++编译的程序所占用内存区域一般分为以下5个部分：栈区（stack）：由编译器自动分配和释放，用来存放函数的参数、局部变量等。其操作方式类似于数据结构中的栈。堆区（heap）：一般由程序员分配和释放（通过malloc/free、new/delete），若程序员没有释放，则程序结束时由操作系统回收。它与数据结构中的堆是两回事，分配方式类似于链表。全局/静态区：全局变量和静态变量的存储是放在一块的，（1）初始化的全局变量和初始化的静态变量在一块区域，（2）未初始化的全局变量和未初始化的静态变量在

2017-10-02 20:28:29 744

原创 Python3文件读写打开方法

在Python里，可以把文件看成文件的对象。Python文件打开方式openPython文件读取方式read/readline/readlinesPython文件写入方式write/writelines

2017-10-02 19:44:13 2533

原创数字图像处理——轮廓

本文内容参考《数字图像处理基础》Wilhelm Burger等著。根据图像数组获得边缘检测信息，然后循着已检测到的边缘点找到轮廓线。轮廓跟踪：从那些边缘强度较大的地方开始，沿着两个不同方向跟踪边缘点，直到这两条轨迹相遇并形成一条闭合的轮廓线。（灰度梯度弱——>边缘消失；交叉边缘——>歧义）边缘图：通过“阈值运算”对一个“图像像素”是否属于边缘点做“二值判断”(这里需要被判断的“图像像素”是指由“

2017-10-02 18:09:34 1937

原创数字图像处理——边缘检测

本文内容参考《数字图像处理基础》Wilhelm Burger等著。边缘：图像中那些沿某一方向局部强度变化显著的位置。局部强度变化越强烈，越能证明这一位置存在边缘。基于梯度的边缘检测：将图像矩阵的一行灰度变化看作一个一维函数f(x)f(x)，则像素变化就是f′(x)=dfdx(x)f^{'}(x)=\frac{df}{dx}(x)。对于离散函数f(u)f(u)，用中心差分公式粗略估计点uu处的切

2017-10-02 17:27:49 2510

原创数字图像处理——滤波器

本文内容参考《数字图像处理基础》Wilhelm Burger等著。 “点运算”是在不改变图像大小、几何形状以及局部结构的情况下，对像素值进行修改，新图像的像素值只与原图像同一位置的像素值有关。 “滤波器”一般会用到原图像中的多个像素来计算每个新像素，一个滤波器用一个“滤波矩阵”（或“滤波模板”）表示，它的重要参数包括“滤波区域的尺寸”、“滤波区域的形状”。线性滤波器：一、平滑滤波器：将图像中某一

2017-10-01 21:54:46 5319

test_ctr.zip

贝叶斯平滑机制计算ctr更能反映物品的点击率，用矩估计估计出来的参数alpha和beta，再把相应的给ctr计算做平滑，实验证明，使用该平滑机制计算的ctr更能反应物品的热度。

2020-05-29

underexpose_train.zip

用户点击的item序列embedding使用数据，类似一句话是一个文本序列，通常可以直接使用word2vec编码，同样可以对用户点击物品id序列进行编码。

2020-05-29

tfrecord数据.zip

tensorflow实战场景tfrecord方式读取数据的数据样本，现在tensorflow架构里限制整个流程瓶颈的是数据IO，用Queue机制异步的方式(生产者消费者模式)实现数据IO可以高效完成数据的预处理和读取，有效利用GPU资源。

2020-05-17

数据集demo-word.sh.zip

google-code的word2vec训练工具配套数据，demo-word.sh

2019-09-19

word2vec.zip

This tool provides an efficient implementation of the continuous bag-of-words and skip-gram architectures for computing vector representations of words. These representations can be subsequently used in many natural language processing applications and for further research.

2019-09-19

README.md文档

spark入门联系wordcount等相关操作文档~ Spark is a fast and general cluster computing system for Big Data. It provides high-level APIs in Scala, Java, Python, and R, and an optimized engine that supports general computation graphs for data analysis. It also supports a rich set of higher-level tools including Spark SQL for SQL and DataFrames, MLlib for machine learning, GraphX for graph processing, and Spark Streaming for stream processing.

2019-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人