![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python基础
斯特兰奇
这个作者很懒,什么都没留下…
展开
-
设置Jupyter notebook永久输出多行结果
一、甚至当前文件有效执行:from IPython.core.interactiveshell import InteractiveShellInteractiveShell.ast_node_interactivity = "all"二、永久更改方法:cmd执行:jupyter notebook --generate-config 返回jupyter notebook 配置文件的地址进入路径:C:\Users\30976\.jupyter\jupyter_notebook_co.原创 2021-12-15 16:32:59 · 2983 阅读 · 0 评论 -
正则表达式
一、元字符:. ^ $ * + ? {} [] | () \. 代表任意的1个字符,除了\n (换行符)以外,如果要匹配换行符需要用模式修正符。 ^ 代表从字符串的开头进行匹配,在[]里边的时候则表示非的意思。 $ 代表从字符串的结尾进行匹配 * 代表按*左边的字符进行匹配,包含0-无穷次 默认贪婪匹配,按最多的进行匹配 + 代表按+左边的字符进行匹配,包含1-无穷次 默认贪婪匹配,按最多的进行匹配 ? 代表按?左边的字符进行匹配,包含0-1次 默认贪婪匹配,按最多的进行匹配.原创 2021-12-14 18:10:30 · 579 阅读 · 0 评论 -
开启Jupyter Notebook补齐功能和代码提示
一、代码补齐功能按Tab键可以补齐二.、代码提示功能命令行中依次执行:pip install jupyter_contrib_nbextensionsjupyter contrib nbextension install --userpip install jupyter_nbextensions_configuratorjupyter nbextensions_configurator enable --user安装完成后打开Jupyter Notebook,点击根目录页的标原创 2021-10-11 01:15:37 · 372 阅读 · 0 评论 -
jupyter notebook远程登录详解
1. 生成一个 notebook 配置文件。[atguigu@hadoop101 桌面]$ jupyter notebook --generate-configWriting default config to: /home/atguigu/.jupyter/jupyter_notebook_config.py (这是一个隐藏文件)Out[3]: 'sha1:62e626059736:7788c2a6ad5ba4343c0e18ddd66b4f0e2ddf74f0'2、生成密码。在...原创 2021-09-29 20:25:36 · 3557 阅读 · 0 评论 -
jupyter notebook自动补全功能实现
Jupyter notebook使用默认的自动补全是关掉的。要打开自动补全,需修改默认配置。命令行中输入:ipython profile create以上命令会在~/.ipython/profile_default/目录下生成ipython_config.py和ipython_kernel_config.py我们需要修改(ipython_config.py)的以下几行,将开启补全功能:## Activate greedy completion PENDING DEPRECTI.原创 2021-09-29 18:43:37 · 4441 阅读 · 1 评论 -
《基于pyspark的大数据分析》视频29淘宝数据分析
课程《基于pyspark的大数据分析》视频29淘宝数据分析中,源代码如下: # 需求:按照session_id进行分组,统计次数,会话PV session_pv = sqlContext.sql(""" SELECT session_id, COUNT(1) AS cnt FROM tmp_page_views GROUP BY session_id O原创 2021-08-28 19:36:02 · 302 阅读 · 0 评论 -
PermissionError: [Errno 13] Permission denied: ‘iv_list.xlsx‘问题解决
ermissionError: [Errno 13] Permission denied: 'iv_list.xlsx'报错原因:xlsx文件资源被占用,即excel 文件是打开的,写入操作需要关闭文件。解决办法:关闭excel文件,重新运行。原创 2021-07-31 19:22:56 · 911 阅读 · 0 评论 -
Python报错ValueError: arrays must all be same length
输入:期望功能:把不等长的value输出,形成DataFrame。输入以下代码:d={ 'NUM' : range(3), 'C' : ['c1','c2','c3'], 'D' : ['d1','d2','d3','d4'], 'E' : ['e1','e2','e3'], 'B' : ['b1','b2','b3']}期望功能:把不等长的value输出,形成DataFrame。输入以下代码:import pandas as pd df = pd.Da.原创 2021-07-30 04:16:23 · 759 阅读 · 0 评论 -
ImportError: cannot import name ‘joblib‘
原因:安装的Scikit-learn版本太高,我安装的版本是0.23.1解决方法:需要将Scikit-learn版本降到0.21以下pip uninstall joblib scikit-learn sklearnpip install Scikit-learn==0.20.4或者直接安装joblib:pip install joblib...原创 2021-07-30 03:13:46 · 158 阅读 · 0 评论 -
复杂网络中louvain算法实现时报错AttributeError: module ‘community‘ has no attribute ‘best_partition‘
导入包的方式有点奇怪,用的不是包名“python-louvain”而是“community”,import community as community_louvain在jupyter中运行“partition = community_louvain.best_partition(G) #进行图划分”的时候出现以下错误:AttributeError: module ‘community’ has no attribute 'best_partition' 。第一反应猜测是没安装communi原创 2020-12-01 01:50:15 · 2866 阅读 · 2 评论 -
更换anaconda的镜像频道
1. 添加“清华镜像”渠道, 在Anaconda Prompt中执行:conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config --add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/cloud/conda-forge/conda config --add channels https://mirro原创 2020-12-01 00:53:32 · 884 阅读 · 0 评论 -
在notebook中使用plt绘图共有三种模式
在notebook中使用plt绘图共有三种模式:%matplotlib inline:这是默认的模式,输出的图片是静态的 %matplotlib auto:在这个模式下会弹出一个单独 的绘图窗口,和在pycharm中一样 %matplotlib notebook:在这个模式下会在notebook中产生一个绘图窗口,能够对图片进行放大缩小等操作。...原创 2020-11-30 18:52:53 · 1130 阅读 · 0 评论 -
df_1.columns
Python版本:Python 3.6pandas.read_csv() 报错 OSError: Initializing from file failed,一般由两种情况引起:一种是函数参数为路径而非文件名称,另一种是函数参数带有中文(包括路径里边有中文)。# -*- coding: utf-8 -*-"""Created on Mon Jun 4 09:44:36 2018@author: wfxu"""import pandas as pdda1=pd.read_csv('F:\原创 2020-11-25 23:31:06 · 2461 阅读 · 0 评论 -
Numpy知识点补充:np.vstack()&np.hstack()
np.vstack:按垂直方向(行顺序)堆叠数组构成一个新的数组In[3]:import numpy as npIn[4]:a = np.array([[1,2,3]])a.shapeOut[4]:(1, 3)In [5]:b = np.array([[4,5,6]])b.shapeOut[5]:(1, 3)In [6]:c = np.vstack((a,b)) # 将两个(1,3)形状的数组按垂直方向叠加print(c)c.shape # 输出形状为(2,3).原创 2020-11-24 01:54:40 · 568 阅读 · 0 评论 -
Python List pop()方法
描述pop() 函数用于移除列表中的一个元素(默认最后一个元素),并且返回该元素的值。语法pop()方法语法:list.pop([index=-1])参数obj -- 可选参数,要移除列表元素的索引值,不能超过列表总长度,默认为 index=-1,删除最后一个列表值。返回值该方法返回从列表中移除的元素对象。实例以下实例展示了 pop()函数的使用方法:#!/usr/bin/python3#coding=utf-8 list1 = ['Google', 'R原创 2020-11-06 14:34:44 · 3952 阅读 · 0 评论 -
TypeError: ‘int‘ object is not subscriptable
1、错误描述E:\PycharmProjects\cmn\venv\Scripts\python.exe E:/PycharmProjects/cmn/venv/com.you.cmn/E.pyTraceback (most recent call last): File "E:/PycharmProjects/cmn/venv/com.you.cmn/E.py", line 8, in <module> if(nums[i] % 2 == 0):TypeError: 'i原创 2020-11-06 14:32:17 · 6884 阅读 · 0 评论 -
PandasDataframe.sample()使用介绍
Pandas sample()用于从DataFrame中随机选择行和列。DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)参数n:这是一个可选参数, 由整数值组成, 并定义生成的随机行数。 frac:它也是一个可选参数, 由浮点值组成, 并返回浮点值*数据帧值的长度。不能与参数n一起使用。 replace:由布尔值组成。如果为true, 则返回带有替换.原创 2020-11-06 13:24:44 · 14496 阅读 · 1 评论 -
Python split()方法
描述Pythonsplit()通过指定分隔符对字符串进行切片,如果参数 num 有指定值,则分隔 num+1 个子字符串.语法split() 方法语法:str.split(str="", num=string.count(str)).参数str -- 分隔符,默认为所有的空字符,包括空格、换行(\n)、制表符(\t)等。 num -- 分割次数。默认为 -1, 即分隔所有。返回值返回分割后的字符串列表。实例以下实例展示了 split() 函数的使用方法:实例..原创 2020-11-06 12:40:15 · 2086 阅读 · 0 评论 -
如何计算python程序运行的时间
%time,%timeit和%% time你想知道你的代码需要运行多长时间吗?不出所料,你需要使用的魔术命令是时间及其变体。这是对代码进行基准测试的快速方法,并向其他人表明他们需要多长时间来重新运行结果。import numpy as npfrom numpy.random import randint# A function to simulate one million dice throws.def one_million_dice(): return randint(low原创 2020-11-06 12:28:46 · 2181 阅读 · 0 评论 -
pythonjupyter魔术命令
魔术命令:IPython有一些特殊的命令。能够方便轻松地控制IPython系统。魔术命令以百分号%为前缀;可看作运行于IPython系统中的命令行程序,它们大都还有一些参数选项。在命令后面加问号(?)可以查看。默认可以不带百分号使用的,只要没有定义与其同名的变量即可。可以通过%automagic命令打开或者关闭此功能。通过%quickref 或%magic命令可以查看所有的命令.常用魔术命令:%timeit多次执行一条语句,并返回平均时间,%%timeit多次执行多条语句,并返回原创 2020-11-06 12:24:30 · 496 阅读 · 0 评论 -
Windows10环境下安装graphviz和pygraphviz(亲测成功)
一、安装graphviz1.安装包方式安装,下载匹配电脑的版本 安装graphviz可视化工具网址:http://www.graphviz.org/download/2.双击下载的msi文件,一路next(记住安装路径,后面配置环境变量会用到路径信息),安装完成之后,会在windows开始菜单创建快捷信息,默认快捷方式不放在桌面3.配置环境变量将graphviz安装目录下的bin文件夹添加到Path环境变量中:或者是,用Anaconda Prompt安装graphviz..原创 2020-11-06 08:01:22 · 712 阅读 · 0 评论 -
win10下的xgboost、ightgbm、catboost的安装和使用
环境是win10-64位,anacanda3,python3.7.0.首先,在Anaconda下xgboost安装和实现xgboost安装:1.下载xgboost安装包:https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboostXgboost: a distributed gradient boosting (GBDT, GBRT or GBM) library.Requires the Microsoft Visual C++ Redistrib.原创 2020-11-06 07:55:41 · 1933 阅读 · 1 评论 -
python中dtype、type()、astype()区别
type() 返回数据结构类型(list、dict、numpy.ndarray 等)dtype() 返回数据元素的数据类型(int、float等)astype()函数1astype()函数可用于转化dateframe某一列的数据类型如下将dateframe某列的str类型转为int,注意astype()没有replace=True的用法,想要在原数据上修改,要写成如下形式。app_train[['uid','index']] = app_train[['uid','index']...原创 2021-08-05 21:01:09 · 2806 阅读 · 0 评论 -
用pandas_profiling生成数据报告遇到的各种坑
在安装!pip3 install pandas_profiling时候提示需要先安装pip install certifi。但是在pip install certifi时候报错:Cannot uninstall 'certifi'. It is a distutils installed project and thus we cannot accurately determine which files belong to it which would lead to only a partia原创 2020-11-05 11:54:42 · 5935 阅读 · 0 评论 -
python中日期型数据的处理方法
python中日期型数据的处理主要涉及到pandas中的.to_datetime方法和datetime库里边的datetime.strptime函数,前者一般最series进行操作,后者一般对具体的字符串进行操作。一.datetime.strptime函数用于将一个日期字符串转成datetime日期格式便于后期处理,使用格式为datetime.strptime(date_string, format),其中date_string就是要转成日期的字符串,format根据date_str...原创 2020-11-05 08:59:45 · 4026 阅读 · 1 评论 -
Python 查看变量数据类型与数据格式
一般我们拿到一个数据,会先看一下这个数据有多少行多少列,各个字段是什么,数据格式类型是什么。在开始讲数据格式前,需要先梳理一下各个数据类型。我们常使用的库一般是numpy和pandas,Numpy下的核心是数组(array,ndarray),Pandas下的核心是数据框(Series,DataFrame)先随机创一点数据用来测试import pandas as pdimport numpy as npdf=pd.DataFrame(np.random.randint(5,10,size=(10原创 2020-11-05 06:09:08 · 7515 阅读 · 0 评论 -
Python3 filter() 函数
描述filter()函数用于过滤序列,过滤掉不符合条件的元素,返回一个迭代器对象,如果要转换为列表,可以使用list()来转换。该接收两个参数,第一个为函数,第二个为序列,序列的每个元素作为参数传递给函数进行判,然后返回 True 或 False,最后将返回 True 的元素放到新列表中。语法以下是 filter() 方法的语法:filter(function, iterable)参数function -- 判断函数。 iterable -- 可迭代对象。返回值返...原创 2020-11-05 03:18:19 · 554 阅读 · 0 评论 -
python打印的时候print(f“*******“) 的括号里的 f‘ ‘ 起到什么作用?
python的print字符串前面加f表示格式化字符串,加f后可以在字符串里面使用用花括号括起来的变量和表达式,如果字符串里面没有表达式,那么前面加不加f输出应该都一样.print(f'There are {data_train.isnull().any().sum()} columns in train dataset with missing values.')out:There are 22 columns in train dataset with missing values.如果原创 2020-11-05 02:46:19 · 4605 阅读 · 0 评论 -
pandas.DataFrame.any()与all()
顾名思义,any()一个序列中满足一个True,则返回True;all()一个序列中所有值为True时,返回True,否则为False。这点可从Series的any()和all()的例子中看出。>>>pd.Series([False, False]).any()False>>>pd.Series([True, False]).any()True>>>pd.Series([]).any()False>>>pd...原创 2020-05-16 01:37:58 · 20416 阅读 · 0 评论 -
pandas 中三种删除方法
在pandas中,del、drop和pop方法都可以用来删除数据,insert可以在指定位置插入数据。可以看看以下示例。import pandas as pd from pandas import DataFrame, Seriesdata = DataFrame({'name':['yang', 'jian', 'yj'], 'age':[23, 34, 22], 'gender':['male', 'male', 'female']})#data数据'''In[182]: dataO原创 2020-05-16 00:23:49 · 6582 阅读 · 0 评论 -
Pandas 中Dataframe的 Insert函数详解
Dataframe.insert(loc,column,value,allow_duplicates=False): 在Dataframe的指定列中插入数据。参数介绍:loc:int型,表示第几列;若在第一列插入数据,则 loc=0column: 给插入的列取名,如 column='新的一列'value:数字,array,series等都可(可自己尝试)allow_duplicates: 是否允许列名重复,选择Ture表示...原创 2020-05-16 00:11:04 · 19171 阅读 · 0 评论 -
Python3.7sklearn包中缺失Imputer函数
本人是win10下安装的anaconda3,相关版本如下:然而在使用sklearn中的Imputer函数时,会出现报错:>>> import numpy as np>>> import sklearn>>> from sklearn import preprocessing>>> from sklearn.preprocessing import ImputerTraceback (most recent ca原创 2020-05-14 00:03:18 · 5515 阅读 · 0 评论 -
首次登录Jupyter Notebook时的远程登录及密码设置操作
anaconda安装在centos虚拟机上,想在宿主机的win10远程登录虚拟机上的jupyter notebook,需要如下设置;在虚拟机终端输入jupyter notebook --ip 192.111.1.19 (虚拟机自身的ip)这时候虚拟机的浏览器会自动打开notebook,要注意,终端里边有这么一句话:[C 21:54:28.622 NotebookApp] Copy/paste this URL into your browser when you conn.原创 2020-05-08 23:11:06 · 4638 阅读 · 0 评论 -
pyspark中:DataFrame' object has no attribute 'map'
在对 pyspark的sparksql 代码中测试中, 在spark1.6中使用dataframe的map对象时,如下代码session_pv = sqlContext.sql("""SELECT session_id,COUNT(1) AS cnt FROM tmp_page_views GROUP BY session_id ORDER BY cnt DESC LIMIT 20""")\...原创 2020-05-06 17:57:57 · 3547 阅读 · 0 评论 -
win系统下pycharm下py2.x和py3.x双环境的pyspark配置
一、py2.x和py3.x双环境的安装第一步:首先在win上分别安装anaconda2和anaconda3,注意安装在不同的文件路径下,并且在安装二个的时候下边这二个框不一定不勾选,安装第一个时候可以勾选。然后,分别设置好环境变量,如果第一个勾选了上边二个框是会自动设置环境变量的安装好后,分别找到安装目录,修改python.exe的名字分别修改为python2.exe,pyth...原创 2020-05-06 11:05:57 · 349 阅读 · 0 评论 -
样本不平衡处理包imblearn导入报错的处理方法
今天在做信用信用评分模型时候,需要用imblearn包里边的smote类处理样本不平衡,在jupyter下用下边代码安装库:!pip install imbalanced-learn 安装imbalanced-learn库但是在导入库时候抛出如下错误ImportError: cannot import name 'MultiOutputMixin' from 'sklearn.b...原创 2020-05-04 11:11:52 · 12193 阅读 · 3 评论 -
如何用python自动调用qq邮箱发送邮件详细说明(带图文和代码)
第一步:在qq邮箱里边开启POP3/SMTP服务和IMAP/SMTP服务按照导航提示用密保手机号发一个验证短信会收到一个是授信码,保存下来,后边代码中会用到这个授权码。第二步,到python中编写如下代码:#导入需要用到的模块import xlrdimport timeimport xlsxwriterfrom xlutils.copy import copyfro...原创 2020-05-03 12:31:15 · 1862 阅读 · 0 评论 -
win10环境下python3.x远程连接mysql数据库操作数据
首先,在python端安装pymysql库,并将其导入。然后,创建一个连接。最后,读取表信息:在第三步的时候可能会抛出如下错误:"Host is not allowed to connect to this MySQL server"这些由mysql服务器安装时默认只能本地连接不能远程连接引起的,需要授权其能被远程连接来解决,有两种方法:1、改表法;在...原创 2020-05-03 03:26:16 · 712 阅读 · 0 评论 -
pandas中索引重置set_index和reset_index的用法
1.set_indexDataFrame可以通过set_index方法,可以设置单索引和复合索引。DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=False)import pandas as pdimport numpy as npdf = pd.DataFram...原创 2020-04-29 01:23:36 · 15982 阅读 · 0 评论