Python
文章平均质量分 71
穿裤衩的文叔
这个作者很懒,什么都没留下…
展开
-
笔记整合三:fastText原理剖析
一、逻辑回归1.1 从线性回归到逻辑回归 线性回归的模型求出的是输出特征向量与输入样本矩阵X之间得线性关系系数K,即我们的Y是连续的,假设我们想要Y离散的话,那么思路可以为对这个Y在做一次函数,由此得到一个 分类函数。 逻辑回归即对线性回归的结果做了一个sigmoid函数,将其结果整合到了[0,1]中,由此得到一个分类函数。1.2 逻辑回归 逻辑回归本质上是线性回归,只是在特征到结果的映射中加入了一层逻辑函数g(z),即先把特征线性求和,然后使用...原创 2020-08-20 14:24:44 · 259 阅读 · 0 评论 -
使用Celery
Celery是一个专注于实时处理和任务调度的分布式队列。所谓人物就是消息,消息中的有效载荷中翻译 2017-08-08 11:58:20 · 543 阅读 · 0 评论 -
Python笔记——类
类是面向对象程序设计实现信息封装的基础。类是一种用户定义类型,其实质为一种数据类型,类似于int、char等基本类型。其不同点在于它是一种复杂的数据类型。因为它的本质是是类型,而不是数据,所以不存在于内存中,不能被直接操作。只有被实例化为对象时,才会变得可操作。类定义:Python中,类的定义如下(class):class A(object): def foo(se原创 2017-08-30 13:43:48 · 467 阅读 · 0 评论 -
Docker与virtualenv
关于Docker与virtualenv,其本质是一样的,virtualenv虚拟python运行环境,保证系统python环境的整洁,docker也是一样,只是它虚拟的是系统运行环境。docker的用途更广,因为它虚拟的是操作系统。一、简介1、关于Docker,它是由go语言编写的一个基于Linux容器的容器引擎。让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何翻译 2017-08-22 17:13:05 · 5598 阅读 · 0 评论 -
python 网络编程
几乎所有网络上的程序都在遵循着客户端服务器架构,都以互联网协议(IP)为通信标准,其中,我们用得最多的协议呢是(TCP/IP),它使得计算机之间的通信更像是读写文件。前文我们已经说到,web应用遵循客户端/服务器架构。我们这儿说的web客户端是指一个浏览器,它允许用户在万维网上查询文档。另一边的web服务器端则是运行在信息提供商的主机上的进程,这些服务器等待客户端以及其文档请求,进行相应的处理原创 2016-08-26 15:51:15 · 917 阅读 · 2 评论 -
一些关于Python的小心得
一门语言的编程习惯往往都是由用户来确立的,而一种好的编程习惯无疑会使编程效率大大提高强烈推荐Effective Python 这本书以下是自己整理的一些小心得1、遵循PEP8风格指南python中的空白会影响代码的含义,因此,希望:(1)、使用空格来表示缩进,而非是占位符tab。(2)、和语法相关的每一层缩进都用4个空格来表示。(3)、对于占据多行的长表原创 2017-07-27 15:50:57 · 1440 阅读 · 1 评论 -
Python数据分析之——数据可视化(折线图)
matplotlib的pyplot子库提供了和matlab类似的绘图API,方便用户快速绘制2D图表。首先我们先来看看效果图:然后,是数据:接着是代码:#coding:utf-8import numpy as npimport matplotlib.pyplot as pltimport MySQLdbsql = 'SELECT dt_date,nm_wa原创 2017-08-04 16:09:08 · 9110 阅读 · 0 评论 -
python-scrapy教程(三):实战——采集芒果TV综艺节目信息
我们先来看看需要采集的网站:以综艺类搜索页第一页为例子:http://list.mgtv.com/1/---------2-1---.html,其中一页有60部综艺信息信息:教程:创建工程:具体方法前面教程都有,创建完了之后,整体大概如下图:data.py为主要运行的文件,贴上代码:我们来看一下re_searc原创 2017-08-04 10:43:43 · 3833 阅读 · 1 评论 -
关于Python-NLTK安装的一些事儿
一、首先,关于安装:pip install nltk二、接着,安装完之后,按着教程敲出一段代码运行,例如:#coding:utf-8import nltktext = 'hello,world.'# text = '你好,世界'sens = nltk.sent_tokenize(text)words = []for sent in sens: words.appen原创 2017-12-01 15:22:03 · 1998 阅读 · 1 评论 -
关于python的一些小建议(整理)
循环一、使用while 1 代替 while true二、在循环时,使用xrange而非range,使用 xrange 可以节省大量的系统内存,因为 xrange() 在序列中每次调用只产生一个整数元素。而 range() 將直接返回完整的元素列表,用于循环时会有不必要的开销。三、使用Map、Reduce、fileter 代替for循环1、Map:>>>def add(x)原创 2018-01-09 14:07:29 · 581 阅读 · 0 评论 -
KMP算法浅析
KMP算法是一个高效的串匹配算法,常被人戏称为‘看毛片算法’,其解决的问题为:给定两个字符串:t = 'adjfdajfidjfiasidjfosdsfossssfdsd'p = 'jfidjf'判定t中是否包含p首先,我们来看一个朴素的串匹配算法#coding:utf-8''' 朴素的串匹配法'''def naive_matching(t,p):原创 2018-01-30 15:36:53 · 1147 阅读 · 0 评论 -
爬虫—新浪微博(登陆访问、cookie访问)
一、思路: 登录 ====>进入指定页面 ====>获取cookie ====> 带cookie访问相关页面。 注:貌似微博页面稍微改了一下:现在通过登录直接进入个人中心的过程中所获取的cookie不能用于访问其他页面,因此,才会在登陆后加一层进入指定页面用于获取可用的cookie。二、代码:1、登录并获取cookie(url:https://login.sina.c...原创 2018-04-09 14:25:12 · 4563 阅读 · 0 评论 -
python中文分词(思路+demo)
首先,我们先看一个整体架构图一、分词框架 整体采用结巴分词+自定义词库+字典树的模式进行分词优化。处理流程为:原生数据—>文本清理—>特定预处理—>标识化处理—>罕见词/停用词等移除—>词库匹配—>输出数据 同时,制定以下规则: 1、词库匹配时只输入名词性字符。 2、在标识化处理过程中,指定自己定义的字典,其目的在于虽然可...原创 2018-05-07 14:27:45 · 2233 阅读 · 3 评论 -
python数据库连接池DBUtils
官方介绍:DBUtils是一套为数据库提供可靠,持久和池式连接的工具,可用于各种多线程环境,如Python Webware或其他Web应用程序服务器。该套件支持符合DB-API 2的数据库接口和经典的PyGreSQL接口。 DBUtils套件是作为一个Python软件包实现的,其中包含两个模块子集,一个用于任意DB-API 2模块,另一个用于经典PyGreSQL模块。...原创 2018-06-15 13:59:24 · 2078 阅读 · 0 评论 -
python--利用concurrent.futures 来实现真正的平行计算
由于python的全局解释锁(GIL)使得我们无法使用线程进行真正的平行计算,因此,我们把总计算量分配到多个独立的任务中,并在多个CPU核心上同时运行任务是很难实现的。为解决该类问题,提高代码执行速率,我们尝试可以引入concurrent.futures模块,来利用另外一个名叫multiprocessing的内置模块实现这种需求。该做法会以子程序的形式,平行地运行多个解释器,从...原创 2018-06-29 14:00:55 · 2453 阅读 · 1 评论 -
笔记——centos安装python2.7、pip
一、安装python1、下载python包,我安装的是2.7.12wget https://www.python.org/ftp/python/2.7.12/Python-2.7.12.tgz2、解压、安装:tar xvf Python-2.7.10.tgzcd Python-2.7.103、指定python2.7安装路径./configure --prefix=/usr/*******(跟地址...原创 2018-07-03 14:27:16 · 526 阅读 · 1 评论 -
python3.6 通过pyhdfs操作HDFS
一、安装pip install pyhdfs二、链接:import pyhdfsfs = pyhdfs.HdfsClient('192.168.***.**:50070')三、操作:import pyhdfsclass PackageHdfs(): def __init__(self): self.fs = pyhdfs.HdfsClient...原创 2018-07-30 15:00:06 · 5322 阅读 · 0 评论 -
Python——redis发布者/订阅者笔记
先介绍一下redis的pub/sub功能:Pub/Sub功能(means Publish, Subscribe)即发布及订阅功能。基于事件的系统中,Pub/Sub是目前广泛使用的通信模型,它采用事件作为基本的通信机制,提供大规模系统所要求的松散耦合的交互模式:订阅者(如客户端)以事件订阅的方式表达出它有兴趣接收的一个事件或一类事件;发布者(如服务器)可将订阅者感兴趣的事件随时通知相关订阅者。原创 2017-08-17 17:13:12 · 2324 阅读 · 0 评论 -
python使用supervisor进行进程管理
Supervisor 是一个用python实现的进程管理工具,可以很方便地启动、重启、关闭、查看进程(不仅仅是python进程)。除却对单个进程的控制,它还能监控进程:当进程由于某些原因被误kill掉了之后,自动重启并发送时间通知。 一、安装pip install supervisor二、Supervisor组件supervisor有以下四种组件:1、原创 2017-07-14 15:41:24 · 916 阅读 · 0 评论 -
python 网络编程——urllib,urllib2简单运用
知识点一:字典字典呢就是一种数据结构,我们也可以将它称作映射,可以储存任意类型对象。它是由一个键/值对组成,举个通俗一点的例子,以我们的电话簿为例,值==电话,键==姓名。需要注意的是在字典中,所有的键都最多只能出现一次,此外,与集合不同,所有键必须是不可变的(而与之对应的值则没有这种限制)。将键/值对放到一对花括号中即可创建出字典,例如:>>>bird={ 'number':3,原创 2016-08-22 15:40:28 · 940 阅读 · 0 评论 -
python web 开发——初识django
一、开发环境1、Win7下:DOS2、虚拟环境配置:python三大神器之virturalenv安装:pip install virtualenv 安装完之后,记得在把路径添加到环境变量中,我的是c:\python27\scripts二、django安装 pip install django 需要注意的是敲下这条命令,系统会自动安装最新版本的django,如果需原创 2016-09-12 10:40:07 · 777 阅读 · 0 评论 -
python-socket练手
一、部分概念 socket(套接字): 源IP地址和目的IP地址以及源端口号和目的端口号的组合称为套接字。其用于标识客户端请求的服务器和服务。它是网络通信过程中端点的抽象表示,包含进行网络通信必须的五种信息:连接使用的协议,本地主机的IP地址,本地进程的协议端口,远地主机的IP地址,远地进程的协议端口。 套接字地址:主机—端口对原创 2016-08-19 13:36:24 · 803 阅读 · 1 评论 -
基于树莓派的智能寝室终端(Python练手)4
一、拨号上网(1)用命令行配置PPPoE 设置modem要用终端。用以下菜单打开:应用程序 > 附件 > 终端。 用来配置的程序包叫PPPoE。这个包是默认安装的,不过有时配置更改时有可能系统里没有。如果下面的命令不能运行,你就得去安装这个包。安装PPPoE:在树莓派中输入:sudo apt-get install pppoe pppoeconf pppstatus在终原创 2016-08-19 13:33:34 · 2002 阅读 · 0 评论 -
基于树莓派的智能寝室终端(Python练手,运行状况)3
一、内核温度系统注:树莓派自带温度传感器1、http://shumeipai.nxez.com/2014/10/04/get-raspberry-the-current-status-and-data.html(资料引用)sudo nano get.py贴入如下代码:import os # Return CPU temperature as a character st原创 2016-08-19 13:25:59 · 1831 阅读 · 0 评论 -
基于树莓派的智能寝室终端(Python练手)2
GPIO扩展口1、先安装python-dev,输入以下指令。sudo apt-get install python-dev2、安装RPi.GPIO,依次输入以下指令。1)下载:$wgethttp://raspberry_gpio-python.googlecode.com/files/rpi.GPio3a.tar.gz2)解压缩:$ tar xvzf RPi.GPIO-0.原创 2016-08-19 13:23:18 · 1524 阅读 · 0 评论 -
基于树莓派的智能寝室终端(Python练手)1
1 系统的设计思路此次设计,将在debian系统中搭建开发环境,编程语言以python为主,实现数据采集、处理、上传、下载等功能,同时对信息进行加密处理,以确保数据以及整个系统的安全性。其整个系统包括以下模块: (1)数据采集模块;(2)数据处理模块;(3)数据上传模块;(4)数据下载模块;(5)远程监控模块;(6)物联网接入模块;(7)开机自启模块;(8)网原创 2016-08-19 13:20:58 · 4394 阅读 · 0 评论 -
Python抓取图片(贴吧)
今天给大家写分享一个爬虫小程序,用来抓取贴吧的一些图片 picture.py。步骤:1、获取指定网页源代码,建议request一下。2、匹配正则3、利用urlretrieve下载在这儿呢需要注意的是urlretrieve(path,name)path指的是保存路径,默认是当前路径,也就是picture.py所在的路径,具体来说:urlretrieve(url,原创 2016-09-06 10:03:18 · 1786 阅读 · 0 评论 -
Python网络编程——urllib,urllib2(2),附带部分GUI基础
本篇博客是上篇博客的延续,涉及到的知识点除了上篇博客所提到的字典、web应用、模块/包的之外,还涉及到简单的抓包、正则表达式以及Python的GUI设计。还是老样子,先讲点知识点,再来干货。一、正则表达式举个例子,假如我经营着一家大型的上市公司,而作为我的秘书,我需要你提供一份去年2月公司所接收以及发送的所有电子邮件(注意,我前面强调的是大型的上市公司,这意味着工作量将会很大,你不可能原创 2016-08-22 20:11:27 · 1056 阅读 · 0 评论 -
python TXT文件操作
#coding:utf-8import MySQLdb#连接数据库db = MySQLdb.connect() db.set_character_set('utf8')cursor = db.cursor()#select 语句,将所需数据赋值给url_listurl_list = [i[0] for i in cursor.fetchmany(cursor.ex原创 2017-07-12 11:36:08 · 760 阅读 · 0 评论 -
python-scrapy教程(二):网页跳转
我们接着上一教程开始讲解scrapy中网页的跳转首先,先看我们要采集的网站:优酷list列表--http://list.youku.com/category/show/c_96_r_2017_s_1_d_1_p_1.html我们所要采集的信息呢在这个详情页这个详情页是通过播放页的节目简介这儿的入口进入的接下来我们看看代码(只需要在教程一中的代码进行修改):原创 2017-03-30 15:09:57 · 6744 阅读 · 1 评论 -
python-scrapy教程(一):创建工程,并抓取数据
首先,做一下简介:Scrapy,Python开发的一个快速,高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。1、创建工程:选择一个文件夹,然后:scrapy startproject youku2、进入文件夹:cd youku3、创建py文件,制定采集网址后缀: scrapy genspider原创 2017-03-29 17:16:08 · 2820 阅读 · 4 评论 -
HTML+CSS3前端开发幽灵按钮
幽灵按钮,也就是Ghost Buttons,是一个透明的按钮,通常是矩形或者圆角矩形,仅保留基本的形制,使用细线来标识边界;按钮内的文字通常使用纤细的非衬线体字体的纯文本,来指明按钮功能。举个例子,09年的星际迷航里企业号控制端的UI就大多采用的是幽灵按钮。其通透简约,贴合整体风格别具魅力。那么,首先呢给大家瞅瞅我自己做的一个幽灵按钮(界面有点丑,希望大家见谅啊):好了,不废话原创 2016-09-30 22:57:47 · 2237 阅读 · 0 评论 -
python爬虫练手二
前段时间分享了一段爬虫代码,主要功能是向某个指定网站POST一组字典数据后re返回的数据,最终显示在GUI界面上,也就是一个很简单的签名设计。但是代码前段时间还能跑,但最近就瞎了,返回了403,估计被反了。所以今天单独另外再换了一个网站,分享一下代码:1.GUI设计首先,肯定是设计GUI啦:2、function post:def一个函数,用于post数据,也就是我们原创 2016-10-15 09:27:07 · 1053 阅读 · 1 评论 -
Python自动化——selenuim安装(Windows下)
首先,我用的是Python2.7需要安装的程序有:1.Python2、setuptools-0.6c11.win32-py2.7(必须装)3、pip步骤:1、进入pip界面,我的在C:Python27\scripts\2、输入:pip install -U selenium,如图:检查是否安装成功:>>>from selenium imp原创 2016-09-06 10:20:29 · 1279 阅读 · 0 评论 -
网络环境异常处理
班上很多小伙伴经常向我吐槽自己的电脑原创 2014-08-27 14:23:44 · 3726 阅读 · 0 评论