Python
文章平均质量分 54
wx_411180165
这个作者很懒,什么都没留下…
展开
-
协方差计算逻辑
一、协方差的计算已知两组数据,计算其协方差X:3 5 4 12 9Y:5 15 5 6 71.Cov(X,Y)=E(XY)-E(X)E(Y)E(X)=(3+5+4+12+9)/5=6.6E(Y)=(5+15+5+6+7)/5=7.6E(XY)=(3*5+5*15+4*5+12*6+9*7)/5=49Cov(X,Y)=E(XY)-E(X)E(Y)=49-6.6*7.6=-1.162.=(3+5+4+12...原创 2020-08-24 16:28:15 · 343 阅读 · 0 评论 -
python Async/Await 异步函数中互相调用
# demo.pyimport asyncio, time# asyncio.wait() 等待执行完成async def foo(): await asyncio.sleep(2) return 50async def main(): task = asyncio.Task(foo()) # 执行其他任务 print('看看会不会提前出现.....原创 2019-12-28 13:19:14 · 2722 阅读 · 0 评论 -
python matplotlib包引用错误
No module named 'matplotlib.finance'原因分析,是matplotlib包把matplotlib.finance剥离出importmpl_finance原创 2019-11-18 21:10:16 · 815 阅读 · 1 评论 -
概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)
概率函数P(x)、概率分布函数F(x)、概率密度函数f(x)“离散型随机变量”和“连续型随机变量”离散型变量:所有取值可明确列举,如年龄、人数、房间个数等。连续型变量:所有取值无法明确列举,如身高、长度、温度等。离散随机变量单值有概率,连续随机变量单值无概率对于离散型变量而言,可以用概率函数P(x)描述所有取值x的对应概率;而对于连续型变量而言,“取某个具体值的概率”的说法是无...原创 2019-11-03 21:29:36 · 13656 阅读 · 1 评论 -
Pycharm配置git安装
1、在官网https://www.git-scm.com/download/win 上下载git至本地,并配置好环境变量2、然后在Pycharm上配置好git环境,在pycharm上点击设置,版本控制,选择Git,在执行path to git executable上输入git路径,3、在pycharm 上配置git...原创 2019-10-25 10:48:30 · 3146 阅读 · 0 评论 -
python Async/Await 笔记
python常见的几种函数:1、普通函数def function(): return 12、生成器函数def generator(): yield 13、异步函数(协程)async def async_function(): return 14、异步生成器async def async_generator(): yield 1协程需要通过其他方式来...原创 2019-10-20 01:21:29 · 449 阅读 · 0 评论 -
Python装饰器abstractmethod、property、classmethod、staticmethod及自定义装饰器
总览:@abstractmethod:抽象方法,含abstractmethod方法的类不能实例化,继承了含abstractmethod方法的子类必须复写所有abstractmethod装饰的方法,未被装饰的可以不重写@ property:方法伪装属性,方法返回值及属性值,被装饰方法不能有参数,必须实例化后调用,类不能调用@ classmethod:类方法,可以通过实例对象和类对象调用,...原创 2019-10-20 01:21:18 · 233 阅读 · 0 评论 -
python selenium 速度优化
让浏览器一开始不加载图片、css样式,一般的爬虫都是因为内存消耗太大引起的prefs = {“profile.managed_default_content_settings.images”: 2,‘permissions.default.stylesheet’: 2}chrome_options.add_experimental_option(“prefs”, prefs)driv...转载 2019-10-17 00:36:24 · 3296 阅读 · 0 评论 -
python3 selenium的三种等待加载方式的优缺点
1、显式等待等待一定条件发生后再进一步执行后面的动作,与time库合用.现在的大多数的Web应用程序是使用Ajax技术。当一个页面被加载到浏览器时, 该页面内的元素可以在不同的时间点被加载。这使得定位元素变得困难, 如果元素不再页面之中,会抛出 ElementNotVisibleException 异常。 使用 waits, 我们可以解决这个问题。waits提供了一些操作之间的时间间隔- ...原创 2019-10-16 22:10:14 · 1080 阅读 · 0 评论 -
python tkinker库模块详解
1、脚本名称不能命名为模块名,否则会报:Traceback (most recent call last): File "C:/Users/Administrator/PycharmProjects/untitled/python/web/tkinter.py", line 1, in <module> import tkinter as tk File "C:\U...原创 2018-11-20 17:38:54 · 9006 阅读 · 3 评论 -
python operator模块讲解
这些函数属于执行对象比较,逻辑运算,数学运算,序列运算和抽象类型测试的类别。operator.lt(a, b) #等价于a<boperator.le(a, b) #等价于a<=boperator.eq(a, b) #等价于a==boperator.ne(a, b) <span style="font-family: Arial, Helvetica, sans-seri...原创 2018-11-12 16:14:52 · 774 阅读 · 0 评论 -
python tkinter模块安装
引言:在Python3下运行Matplotlib之时,碰到了”No module named _tkinter“的问题,花费数小时进行研究解决,这里讲整个过程记录下来,并尝试分析过程中的解决思路利弊得失,以资后效,这里重点提示需要关注错误信息的分析,这个是第一现场。环境介绍任何技术问题的出现以及修复都是依赖于系统环境以及特定版本的,这里首先描述如下:Ubuntu: 17.10 Pyt...原创 2018-11-21 00:33:03 · 112754 阅读 · 2 评论 -
python jieba模块基本命令讲解
1、分词精确模式:import jiebas="fdsfdsfsdfds"s_cut_jq=jieba.cut(s)#可见分词结果返回的是一个生成器,可实现拼接cut_jq=','.join(s_cut_jq)全模式:s_cut_qms=jieba.cut(s,cut_all=True)cut_qms=','.join(s_cut_qms)搜索引擎模式:s_cut_ssyqms=j...原创 2018-11-11 15:30:45 · 5121 阅读 · 0 评论 -
python pprint模块详解
pprint模块:打印出任何python数据结构类和方法 indent --- 缩进,width --- 一行最大宽度, depth --- 打印的深度,这个主要是针对一些可递归的对象,如果超出指定depth,其余的用"..."代替。 eg: a=[1,2,[3,4,],5] a的深度就是2; b=[1,2,[3,4,[5,6]],7,8] ...原创 2018-11-07 18:08:36 · 6539 阅读 · 0 评论 -
python 稀疏向量
对于那些零元素数目远远多于非零元素的数目,并且非零元素的分布没有规律的矩阵,称为稀疏矩阵。由于稀疏矩阵中非零元素较少,零元素较多,因此可以采用只存储非零元素的方法进行压缩存储。对于一个用二维数组存储的稀疏矩阵Amn,如果假设存储每个数组元素需要L个字节,那么存储整个矩阵需要m*n*L个字节。但是,这些存储空间的大部分存放的是0元素,从而造成大量的空间浪费。为了节省存储空间,可以只存储其中的非0...转载 2018-11-10 16:03:56 · 5564 阅读 · 0 评论 -
python diag函数详解
线性代数是代数学的一个分支,主要处理线性关系问题。线性关系意即数学对象之间的关系是以一次形式来表达的。例如,在解析几何里,平面上直线的方程是二元一次方程;空间平面的方程是三元一次方程,而空间直线视为两个平面相交,由两个三元一次方程所组成的方程组来表示。含有n个未知量的一次方程称为线性方程。关于变量是一次的函数称为线性函数。线性关系问题简称线性问题。解线性方程组的问题是最简单的线性问题。所...原创 2018-11-05 00:28:57 · 5034 阅读 · 0 评论 -
python 统计基础
1、一维数据分析:期望值:,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。 某城市有10万个家庭,没有孩子的家庭有1000个,有一个孩子的家庭有9万个,有两个孩子的家庭有6000个,有3个孩子的家庭有3000个。则此城市中任一个家庭中孩子的数目是一个随机变量,记为X。它可取值0,1,2,3。...原创 2018-11-05 00:07:19 · 253 阅读 · 0 评论 -
python scipy和numpy与线性代数的关联
1、矩阵:是一个二维数组import numpy as npmatrixs=np.matrix('1 2;3 4')#实现矩阵的共轭转置print(matrixs.H)#矩阵的转置print(matrixs.T)import randomprint(random.random()) #随机产生[0,1)之间的浮点值print(random.randint(1,6...原创 2018-11-02 11:54:21 · 564 阅读 · 2 评论 -
python 使用pandas计算累积求和
使用pandas下的cumsum函数cumsum:计算轴向元素累积加和,返回由中间结果组成的数组.重点就是返回值是"由中间结果组成的数组"import numpy as np'''arr是一个2*2*3三维矩阵,索引值为0,1,2cumsum(0):实现0轴上的累加:以最外面的数组元素为单位,以[[1,2,3],[8,9,12]]为开始实现后面元素的对应累加cumsum(1):实现...原创 2018-10-21 13:22:22 · 16217 阅读 · 0 评论 -
python matplotlib常见图形画法
import matplotlib.pylab import pltfig=plt.figure() #可以设置画布的大小,以及分辨率matplotlib对象都位于Figure对象中,plt.subplots,它可以创建一个新的Figure,且返回一个含有已创建的subplot对象的numpy数组。1、刻度尺的设置import numpy as npfrom matplotlib.p...原创 2018-10-21 14:45:09 · 1830 阅读 · 0 评论 -
python 排序、排名、合并、修改(字符串、列表、numpy、pandas)等
参考:https://blog.csdn.net/haiyang_duan/article/details/792214581、排序:字符串和列表,都使用sort函数,默认都为升序,若想为降序,使用reverse=True####不改变列表的结构和内容,产生一个新的列表a=[1,2,5,4]sorted(a)####改变列表的结构和内容a.sort()_______________...原创 2018-10-28 01:09:23 · 5703 阅读 · 0 评论 -
Python 缺失异常数据处理
处理缺失数据dropna( )和fillna( ):import pandas as pddata=pd.Series([1,np.nan,5,np.nan])#去除所有含有nan的行data.dropna(how='all')#丢弃带有NAN的行data.dropna()#丢弃所有元素都是NAN的列data.dropna(axis=1,how='all')#fillna( )函数...原创 2018-11-01 16:25:15 · 384 阅读 · 0 评论 -
TF-IDF及其算法
概念 TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用,作为文...转载 2018-11-03 15:59:23 · 193 阅读 · 0 评论 -
python 文本相似度分析doc2bow
步骤:1、读取文档2、对要计算的多篇文档进行分词3、对文档进行整理成指定的格式,方便后续进行计算4、计算出词语进行过滤5、可选,对频率低的词语进行过滤6、通过语料库建立词典7、加载要对比的文档8、将要对比的文档通过doc2bow转换为稀疏向量9、对稀疏向量进行进一步处理,得到新语料库10、通过T-IDFmodel将新语料库进行处理,得到TF-IDF值11、通过token2id...原创 2018-11-03 16:39:38 · 3045 阅读 · 0 评论 -
python collections模块讲解
collection模块是python内置的一个模块namedtupletuple表示不变的集合,即一个点可以由二维坐标可以表示:from collections import namedtuplepoint=namedtuple('name',['X','Y'])p=point(1,2)print(p.X)namedtuple是一个函数,它用来创建一个自定义的tuple对象,并且规定了...原创 2018-11-06 15:24:00 · 699 阅读 · 0 评论 -
python logging模块讲解
日志字段信息与日志格式一条日志信息对应的是一个事件的发生,而一个事件通常需要包括以下几个内容: 事件发生时间 事件发生位置 事件的严重程度--日志级别 事件内容 上面这些都是一条日志记录中可能包含的字段信息,当然还可以包括一些其他信息,如进程ID、进程名称、线程ID、线程名称等。日志格式就是用来定义一条日志记录中包含那些字段的,且日志格式通常都是可以自...原创 2018-11-09 17:26:13 · 192 阅读 · 0 评论 -
python Scipy求解非线性方程组和数值积分
#求解非线性方程组2x1-x2^2=1,x1^2-x2=2from scipy.optimize import fsolve #导入求解方程组的函数from scipy import integratedef func(x:list): x1=x[0] x2=x[1] xy=[2*x1-x2**2-1,x1**2-x2-2] result=fsolve(xy...原创 2018-12-02 20:07:46 · 1892 阅读 · 3 评论 -
python 伯努利分布
伯努利分布 是一种离散分布,有两种可能的结果。1表示成功,出现的概率为p(其中0<p<1)。0表示失败,出现的概率为q=1-p。这种分布在人工智能里很有用,比如你问机器今天某飞机是否起飞了,它的回复就是Yes或No,非常明确,这个分布在分类算法里使用比较多,因此在这里先学习 一下。概率分布有两种类型:离散(discrete)概率分布和连续(continuous)概率分布。离散概率...原创 2018-12-05 12:38:13 · 8370 阅读 · 0 评论 -
python wordcloud模块详解
class WordCloud(object): def __init__(self, font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=.9, mask=None, scale=1, color_func=None, ...转载 2018-12-05 15:03:40 · 2744 阅读 · 0 评论 -
Python selenium基础之PhantomJS
1、对于一些动态js,初步get请求一般访问不到,一、Selenium介绍 Selenium是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方便地实现Web界面的测试。换句话说叫 Selenium 支持这些浏览器驱动。Selenium支持多种语言开...原创 2019-09-07 12:10:24 · 229 阅读 · 0 评论 -
python ABupy量化平台搭建
首先安装abupy依赖包pip installbokehpip installtoolzpip installipywidgetspip installIPython安装完成之后,直接安装pip install abupy,即可完成安装原创 2019-08-26 23:41:36 · 1640 阅读 · 0 评论 -
Hbase伪分布式安装Hadoop2.9.2_Hbase2.0.3并安装thrift服务器,改装hbase-thrift库
1、检查电脑是否安装JDK1.8,没有就安装2、设置ssh免密登陆首先安装openssh服务yum installopenssh-server配置可以免密码登陆本机ssh-keygen-tdsa-P''-f~/.ssh/id_dsa把id_dsa.pub(公钥)追加到授权的key中去cat~/.ssh/id_dsa.pub>>~/.ssh/...原创 2018-12-16 23:30:07 · 1035 阅读 · 0 评论 -
windows和linux安装selenium、chrome
1、对于linux系统,安装chorm使用wget方式,安装最新的chorm首先安装chorm依赖库yum install pax*yum install redhat-lsb*yum -y install libXss*yum install libappindicator*yum install https://dl.google.com/linux/direct/google-...原创 2019-07-13 15:24:34 · 190 阅读 · 0 评论 -
python 高阶函数map()、filter()、reduce()
map()函数是接收两个参数,一个是函数,一个是序列,map()把传入的函数依次作用于序列的每个元素,并把结果作为新的序列返回.filter()函数,接收两个参数,一个是函数,一个是序列,filter()函数是把传入的函数依次作用于每个元素,根据返回值是True还是False决定是保留还是丢弃该元素,结果序列是返回为True的子集reduce()函数,把每个函数作用在一个序列上,这个函数必须接...原创 2019-06-22 17:38:42 · 130 阅读 · 0 评论 -
twisted异常处理
twisted.internet.error.CannotListenError: Couldn't listen on 119.29.148.18:6800: [Errno 99] Cannot assign requested address.解决办法:进入scrapyd安装路径,找到配置文件将bind_address 改为bind_address=0.0.0.0,保存运行即可...原创 2019-06-08 09:24:35 · 827 阅读 · 0 评论 -
内网搭建本地文件夹对应的pip源
第一步:首先搭建httpd服务,yum install httpd或者下载好httpd.**.**.rpm 再执行yum install httpd.**.**.rpmmkdir -p /var/www/packages ##配置httpd服务路径systemctl restart httpd ##重启httpd服务systemctl enable httpd ##httpd服...原创 2019-05-28 16:17:52 · 1407 阅读 · 0 评论 -
Scrapy-settings配置
# -*- coding: utf-8 -*-# Scrapy settings for step8_king project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting the...原创 2019-03-27 18:11:38 · 132 阅读 · 0 评论 -
python socket命令详解
socket俗称套接字,用于描述IP地址和端口,是一个通信链的句柄,应用程序通常通过"套接字"向网络发出请求或者应答网络请求socket主要功能:用于两个程序之间数据交互,负责建立连接和传递数据.socket(family,type[,protocal])使用给定的地址族、套接字类型、协议编号(默认为0)来创建套接字。 socket类型 描述 ...原创 2019-03-31 19:14:31 · 773 阅读 · 0 评论 -
python scrapy模块的安装以及应用
scrapy模块的安装:1、pip install lxml -- 安装lxml2、下载前置模块 预先在cmd命令下执行 pip install scrapy 要是会报错,部分前置库已安装 3、升级pip python -m pip install --upgrade pip4、下载wheel模块 pip install wheel5、安装Twisted 模块: ...原创 2019-03-14 19:25:39 · 1402 阅读 · 0 评论 -
数据挖掘之对比分析
对比分析是把两个相互联系的指标进行比较,从数量上展示和说明研究对象规模的大小,水平的高低,速度的快慢,以及各种关系是否协调,特别适合指标的横向和纵向比较、时间序列的比较分析。在对比分析中,选择合适的对比标准是关键,选择不合适,可能会得出错误的结论.对比形式有以下几种:1、绝对数比较:利用绝对数比较,寻找差异的常用方法2、相对数比较:由两个有联系的指标对比计算的,用以反映客观现象之间数量联系程...原创 2019-01-09 13:12:43 · 1846 阅读 · 0 评论