自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 资源 (3)
  • 收藏
  • 关注

原创 笔记整合三:fastText原理剖析

一、逻辑回归1.1 从线性回归到逻辑回归 线性回归的模型求出的是输出特征向量与输入样本矩阵X之间得线性关系系数K,即我们的Y是连续的,假设我们想要Y离散的话,那么思路可以为对这个Y在做一次函数,由此得到一个 分类函数。 逻辑回归即对线性回归的结果做了一个sigmoid函数,将其结果整合到了[0,1]中,由此得到一个分类函数。1.2 逻辑回归 逻辑回归本质上是线性回归,只是在特征到结果的映射中加入了一层逻辑函数g(z),即先把特征线性求和,然后使用...

2020-08-20 14:24:44 255

原创 笔记二:由决策树到孤立森林

一、决策树 决策树既可以作为分类算法,也可以作为回归算法,同时,也适合集成学习,譬如随机森林。当我们平时在敲各种if,elif,else的时候,其实已经与用到了决策树的思想,并且,其关键在于,需要考虑哪种条件特征在前,哪种条件在后这样做出的决策过程为优。 就决策过程的选择而言,目前一共有三种,按先后顺序为:ID3 ====> C4.5 ====> CART,其中,ID3算法与C4.5可支持分类模型,采用了多叉树的树形结构,其特征选择分别为信息增益...

2020-08-17 09:35:00 473

原创 笔记整合一:由线性回归到逻辑回归

文章目录一、相关概念一、相关概念1、什么是线性回归

2020-06-22 17:45:14 767

原创 python--利用concurrent.futures 来实现真正的平行计算

由于python的全局解释锁(GIL)使得我们无法使用线程进行真正的平行计算,因此,我们把总计算量分配到多个独立的任务中,并在多个CPU核心上同时运行任务是很难实现的。为解决该类问题,提高代码执行速率,我们尝试可以引入concurrent.futures模块,来利用另外一个名叫multiprocessing的内置模块实现这种需求。该做法会以子程序的形式,平行地运行多个解释器,从...

2018-06-29 14:00:55 2453 1

原创 Scala+Spark:对文件进行滤重

需求来源:有俩文件,里面存着很多公司信息,但是有重复的,由于数据量太大,因此,决定写个小脚本,用spark跑一下先看一下文件格式,origin为原始公司信息数据,spider为爬虫抓取的数据整体逻辑:文件求并集 ==> map 对公司名做hash用以做索引 ==> 根据公司名的hash值做groupby,取首位数据 ==> 保存文件1、主文件:2、工具包:processinfo:...

2018-06-14 11:20:52 1495

原创 python中文分词(思路+demo)

首先,我们先看一个整体架构图一、分词框架      整体采用结巴分词+自定义词库+字典树的模式进行分词优化。处理流程为:原生数据—>文本清理—>特定预处理—>标识化处理—>罕见词/停用词等移除—>词库匹配—>输出数据      同时,制定以下规则:      1、词库匹配时只输入名词性字符。      2、在标识化处理过程中,指定自己定义的字典,其目的在于虽然可...

2018-05-07 14:27:45 2231 3

原创 Scala Trait与抽象类

Scala Trait(特征或者特质)类似于java、C#中的接口,但是,Scala支持部分实现,也就是说你可以在其中实现部分方法Scala抽象类不能被实例化,包含若干定义不完全的方法,具体的实现由子类去实现。那么什么时候应该使用特征什么时候又该使用抽象类呢?1、优先使用特质。一个类扩展多个特质是很方便的,但却只能扩展一个抽象类。2、如果你需要构造函数参数,使用抽象类。因为抽象类可以定义带参数的构...

2018-04-04 13:53:59 1137

原创 一些关于Python的小心得

一门语言的编程习惯往往都是由用户来确立的,而一种好的编程习惯无疑会使编程效率大大提高强烈推荐Effective Python 这本书以下是自己整理的一些小心得1、遵循PEP8风格指南python中的空白会影响代码的含义,因此,希望:(1)、使用空格来表示缩进,而非是占位符tab。(2)、和语法相关的每一层缩进都用4个空格来表示。(3)、对于占据多行的长表

2017-07-27 15:50:57 1438 1

原创 python3.6 通过pyhdfs操作HDFS

一、安装pip install pyhdfs二、链接:import pyhdfsfs = pyhdfs.HdfsClient('192.168.***.**:50070')三、操作:import pyhdfsclass PackageHdfs(): def __init__(self): self.fs = pyhdfs.HdfsClient...

2018-07-30 15:00:06 5319

原创 笔记——centos安装python2.7、pip

一、安装python1、下载python包,我安装的是2.7.12wget https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgz2、解压、安装:tar xvf Python-2.7.10.tgzcd Python-2.7.103、指定python2.7安装路径./configure --prefix=/usr/*******(跟地址...

2018-07-03 14:27:16 526 1

原创 python数据库连接池DBUtils

        官方介绍:DBUtils是一套为数据库提供可靠,持久和池式连接的工具,可用于各种多线程环境,如Python Webware或其他Web应用程序服务器。该套件支持符合DB-API 2的数据库接口和经典的PyGreSQL接口。        DBUtils套件是作为一个Python软件包实现的,其中包含两个模块子集,一个用于任意DB-API 2模块,另一个用于经典PyGreSQL模块。...

2018-06-15 13:59:24 2078

原创 hive数据同步(sqoop :Mysql ==>Hive,hive put 文件到hive)

一、Sqoop同步mysql数据到hive:假设我们在Hive里新建了一张测试表info_test,该表对应mysql 数据库中info_test:    CREATE TABLE info_test(id BIGINT,uid INT, name STRING, tel STRING, ) row format delimited fields terminated by '~...

2018-05-31 11:57:34 1363

原创 爬虫—新浪微博(登陆访问、cookie访问)

一、思路:    登录 ====>进入指定页面 ====>获取cookie ====> 带cookie访问相关页面。    注:貌似微博页面稍微改了一下:现在通过登录直接进入个人中心的过程中所获取的cookie不能用于访问其他页面,因此,才会在登陆后加一层进入指定页面用于获取可用的cookie。二、代码:1、登录并获取cookie(url:https://login.sina.c...

2018-04-09 14:25:12 4562

原创 数据库学习之存储过程及函数。

一、变量    1、定义:    DECLARE var_name type[DEFAULT value]    例如,定义一个DATE类型的变量last_month_start:    DECLARE last_month_start DATE    2、变量的赋值:    变量可以直接赋值或者通过查询赋值。    (1)、直接赋值使用SET,可以赋常量或者赋表达式:        SET va...

2018-02-23 16:35:02 2828

转载 Spring干货汇总(含Spring Boot与Spring Cloud)

Spring干货汇总(含Spring Boot与Spring Cloud)https://mp.weixin.qq.com/s/VFHmOIp-H4lgh4gQE-cj5A

2018-02-12 14:55:05 1266 1

原创 数据库学习之sql语句基础

一、MySQL简介        MySQL是一个关系型数据库管理系统,由瑞典MySQL AB公司开发,目前属于Oracle公司。MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性。二、安装完数据库后出现问题的解决方法        1、安装数据库:http://blog.csdn.net/topkipa/arti...

2018-02-12 14:37:12 800

原创 KMP算法浅析

KMP算法是一个高效的串匹配算法,常被人戏称为‘看毛片算法’,其解决的问题为:给定两个字符串:t = 'adjfdajfidjfiasidjfosdsfossssfdsd'p = 'jfidjf'判定t中是否包含p首先,我们来看一个朴素的串匹配算法#coding:utf-8''' 朴素的串匹配法'''def naive_matching(t,p):

2018-01-30 15:36:53 1147

原创 win10下,安装解压版的Mysql

环境:win10 64位 压缩包下载地址:https://dev.mysql.com/downloads/mysql/   如图下载解压后,进入文件夹:配置寄出文件—my.ini:[mysql]; 设置mysql客户端默认字符集default-character-set=utf8[mysqld];设置3306端口port = 3306 ; 设

2018-01-18 15:53:05 2881 3

原创 关于python的一些小建议(整理)

循环一、使用while 1 代替 while true二、在循环时,使用xrange而非range,使用 xrange 可以节省大量的系统内存,因为 xrange() 在序列中每次调用只产生一个整数元素。而 range() 將直接返回完整的元素列表,用于循环时会有不必要的开销。三、使用Map、Reduce、fileter 代替for循环1、Map:>>>def add(x)

2018-01-09 14:07:29 576

原创 关于Python-NLTK安装的一些事儿

一、首先,关于安装:pip install nltk二、接着,安装完之后,按着教程敲出一段代码运行,例如:#coding:utf-8import nltktext = 'hello,world.'# text = '你好,世界'sens = nltk.sent_tokenize(text)words = []for sent in sens: words.appen

2017-12-01 15:22:03 1998 1

原创 Python笔记——类

类是面向对象程序设计实现信息封装的基础。类是一种用户定义类型,其实质为一种数据类型,类似于int、char等基本类型。其不同点在于它是一种复杂的数据类型。因为它的本质是是类型,而不是数据,所以不存在于内存中,不能被直接操作。只有被实例化为对象时,才会变得可操作。类定义:Python中,类的定义如下(class):class A(object): def foo(se

2017-08-30 13:43:48 466

翻译 Docker与virtualenv

关于Docker与virtualenv,其本质是一样的,virtualenv虚拟python运行环境,保证系统python环境的整洁,docker也是一样,只是它虚拟的是系统运行环境。docker的用途更广,因为它虚拟的是操作系统。一、简介1、关于Docker,它是由go语言编写的一个基于Linux容器的容器引擎。让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何

2017-08-22 17:13:05 5598

原创 Python——redis发布者/订阅者笔记

先介绍一下redis的pub/sub功能:Pub/Sub功能(means Publish, Subscribe)即发布及订阅功能。基于事件的系统中,Pub/Sub是目前广泛使用的通信模型,它采用事件作为基本的通信机制,提供大规模系统所要求的松散耦合的交互模式:订阅者(如客户端)以事件订阅的方式表达出它有兴趣接收的一个事件或一类事件;发布者(如服务器)可将订阅者感兴趣的事件随时通知相关订阅者。

2017-08-17 17:13:12 2324

翻译 使用Celery

Celery是一个专注于实时处理和任务调度的分布式队列。所谓人物就是消息,消息中的有效载荷中

2017-08-08 11:58:20 542

原创 Python数据分析之——数据可视化(折线图)

matplotlib的pyplot子库提供了和matlab类似的绘图API,方便用户快速绘制2D图表。首先我们先来看看效果图:然后,是数据:接着是代码:#coding:utf-8import numpy as npimport matplotlib.pyplot as pltimport MySQLdbsql = 'SELECT dt_date,nm_wa

2017-08-04 16:09:08 9109

原创 python-scrapy教程(三):实战——采集芒果TV综艺节目信息

我们先来看看需要采集的网站:以综艺类搜索页第一页为例子:http://list.mgtv.com/1/---------2-1---.html,其中一页有60部综艺信息信息:教程:创建工程:具体方法前面教程都有,创建完了之后,整体大概如下图:data.py为主要运行的文件,贴上代码:我们来看一下re_searc

2017-08-04 10:43:43 3828 1

原创 python使用supervisor进行进程管理

Supervisor 是一个用python实现的进程管理工具,可以很方便地启动、重启、关闭、查看进程(不仅仅是python进程)。除却对单个进程的控制,它还能监控进程:当进程由于某些原因被误kill掉了之后,自动重启并发送时间通知。        一、安装pip install supervisor二、Supervisor组件supervisor有以下四种组件:1、

2017-07-14 15:41:24 915

原创 python TXT文件操作

#coding:utf-8import MySQLdb#连接数据库db = MySQLdb.connect() db.set_character_set('utf8')cursor = db.cursor()#select 语句,将所需数据赋值给url_listurl_list = [i[0] for i in cursor.fetchmany(cursor.ex

2017-07-12 11:36:08 759

原创 python-scrapy教程(二):网页跳转

我们接着上一教程开始讲解scrapy中网页的跳转首先,先看我们要采集的网站:优酷list列表--http://list.youku.com/category/show/c_96_r_2017_s_1_d_1_p_1.html我们所要采集的信息呢在这个详情页这个详情页是通过播放页的节目简介这儿的入口进入的接下来我们看看代码(只需要在教程一中的代码进行修改):

2017-03-30 15:09:57 6739 1

原创 python-scrapy教程(一):创建工程,并抓取数据

首先,做一下简介:Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。1、创建工程:选择一个文件夹,然后:scrapy startproject youku2、进入文件夹:cd youku3、创建py文件,制定采集网址后缀: scrapy genspider

2017-03-29 17:16:08 2819 4

原创 python爬虫练手二

前段时间分享了一段爬虫代码,主要功能是向某个指定网站POST一组字典数据后re返回的数据,最终显示在GUI界面上,也就是一个很简单的签名设计。但是代码前段时间还能跑,但最近就瞎了,返回了403,估计被反了。所以今天单独另外再换了一个网站,分享一下代码:1.GUI设计首先,肯定是设计GUI啦:2、function post:def一个函数,用于post数据,也就是我们

2016-10-15 09:27:07 1053 1

原创 HTML+CSS3前端开发幽灵按钮

幽灵按钮,也就是Ghost Buttons,是一个透明的按钮,通常是矩形或者圆角矩形,仅保留基本的形制,使用细线来标识边界;按钮内的文字通常使用纤细的非衬线体字体的纯文本,来指明按钮功能。举个例子,09年的星际迷航里企业号控制端的UI就大多采用的是幽灵按钮。其通透简约,贴合整体风格别具魅力。那么,首先呢给大家瞅瞅我自己做的一个幽灵按钮(界面有点丑,希望大家见谅啊):好了,不废话

2016-09-30 22:57:47 2236

原创 python web 开发——初识django

一、开发环境1、Win7下:DOS2、虚拟环境配置:python三大神器之virturalenv安装:pip install virtualenv 安装完之后,记得在把路径添加到环境变量中,我的是c:\python27\scripts二、django安装 pip install django 需要注意的是敲下这条命令,系统会自动安装最新版本的django,如果需

2016-09-12 10:40:07 776

原创 Python自动化——selenuim安装(Windows下)

首先,我用的是Python2.7需要安装的程序有:1.Python2、setuptools-0.6c11.win32-py2.7(必须装)3、pip步骤:1、进入pip界面,我的在C:Python27\scripts\2、输入:pip install -U selenium,如图:检查是否安装成功:>>>from selenium imp

2016-09-06 10:20:29 1279

原创 Python抓取图片(贴吧)

今天给大家写分享一个爬虫小程序,用来抓取贴吧的一些图片  picture.py。步骤:1、获取指定网页源代码,建议request一下。2、匹配正则3、利用urlretrieve下载在这儿呢需要注意的是urlretrieve(path,name)path指的是保存路径,默认是当前路径,也就是picture.py所在的路径,具体来说:urlretrieve(url,

2016-09-06 10:03:18 1784

原创 python 网络编程

几乎所有网络上的程序都在遵循着客户端服务器架构,都以互联网协议(IP)为通信标准,其中,我们用得最多的协议呢是(TCP/IP),它使得计算机之间的通信更像是读写文件。前文我们已经说到,web应用遵循客户端/服务器架构。我们这儿说的web客户端是指一个浏览器,它允许用户在万维网上查询文档。另一边的web服务器端则是运行在信息提供商的主机上的进程,这些服务器等待客户端以及其文档请求,进行相应的处理

2016-08-26 15:51:15 916 2

原创 Python网络编程——urllib,urllib2(2),附带部分GUI基础

本篇博客是上篇博客的延续,涉及到的知识点除了上篇博客所提到的字典、web应用、模块/包的之外,还涉及到简单的抓包、正则表达式以及Python的GUI设计。还是老样子,先讲点知识点,再来干货。一、正则表达式举个例子,假如我经营着一家大型的上市公司,而作为我的秘书,我需要你提供一份去年2月公司所接收以及发送的所有电子邮件(注意,我前面强调的是大型的上市公司,这意味着工作量将会很大,你不可能

2016-08-22 20:11:27 1056

原创 python 网络编程——urllib,urllib2简单运用

知识点一:字典字典呢就是一种数据结构,我们也可以将它称作映射,可以储存任意类型对象。它是由一个键/值对组成,举个通俗一点的例子,以我们的电话簿为例,值==电话,键==姓名。需要注意的是在字典中,所有的键都最多只能出现一次,此外,与集合不同,所有键必须是不可变的(而与之对应的值则没有这种限制)。将键/值对放到一对花括号中即可创建出字典,例如:>>>bird={ 'number':3,

2016-08-22 15:40:28 939

原创 python-socket练手

一、部分概念    socket(套接字):        源IP地址和目的IP地址以及源端口号和目的端口号的组合称为套接字。其用于标识客户端请求的服务器和服务。它是网络通信过程中端点的抽象表示,包含进行网络通信必须的五种信息:连接使用的协议,本地主机的IP地址,本地进程的协议端口,远地主机的IP地址,远地进程的协议端口。    套接字地址:主机—端口对        

2016-08-19 13:36:24 803 1

原创 基于树莓派的智能寝室终端(Python练手)4

一、拨号上网(1)用命令行配置PPPoE 设置modem要用终端。用以下菜单打开:应用程序 > 附件 > 终端。 用来配置的程序包叫PPPoE。这个包是默认安装的,不过有时配置更改时有可能系统里没有。如果下面的命令不能运行,你就得去安装这个包。安装PPPoE:在树莓派中输入:sudo apt-get install pppoe pppoeconf pppstatus在终

2016-08-19 13:33:34 2002

python-scrapy实战之优酷电影

1、scrapy中网页的跳转 2、scrapy中items.py和settings.py pipeline等设置 3、教程链接:http://blog.csdn.net/topkipa/article/details/68486693

2017-03-30

51CTO下载-灰帽Python-黑客和逆向工程的Python编程(中文)

51CTO下载-灰帽Python-黑客和逆向工程的Python编程(中文),如果打不开,请右击属性,更改读取权限

2014-06-22

PHP运行环境—— appserv 2.6.0

PHP运行环境—— appserv 2.6.0,注意:安装完后,输入http://127.0.0.1/phpmyadmin/ 后,会弹出对话框要求你输入用户名和密码,appserv安装后 要想进入phpmyadmin ,的默认用户名和密码是admin和 空

2014-06-22

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除