![](https://img-blog.csdnimg.cn/20210703105201880.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
python书籍笔记
文章平均质量分 85
python书籍学习笔记,《python机器学习》、《python数据分析基础》、《python数据处理》等
python__reported
python菜鸟入门,期待成为数据分析的大神;
互相帮助!
展开
-
RNN、self-attention、transform的浅显或许错误的理解
RNN、self-attention、transform的浅显或许错误的理解一、RNN的理解二、self-attention的理解三、Transform的理解四、结语所有的理解都是基于我匮乏的数学知识,当成y = kx+b来理解一、RNN的理解刚开始学的时候看了很多文章,但是感觉都是云里雾里,要么是数学要么是各种没有说明白的图,但是看的多了以后看到《难以置信!LSTM和GRU的解析从未如此清晰(动图+视频)》 《难以置信!LSTM和GRU的解析从未如此清晰(动图+视频)》.之后,有了自己简单但可能错误原创 2021-06-12 22:32:24 · 340 阅读 · 3 评论 -
Keras实现NNLM神经网络语言模型
Keras实现NNLM神经网络语言模型一、NNML的效果二、一些问题三、实现代码及解释四、最终效果一、NNML的效果较为权威的说法为:输入词序列,求出输出值的概率值,表示根据输入预测出下一个词概率。简单的说:预测下一个词实现效果:感觉与索引差不多,唯一不同可能是词向量的存在即索引该词的概率二、一些问题参照的文章为金多:《神经网络语言模型 NNLM (Keras实现)》链接: 神经网络语言模型 NNLM (Keras实现).总裁余(余登武):《NNLM语言模型python实现(例子:基于中文语原创 2021-01-27 13:57:09 · 661 阅读 · 0 评论 -
特征工程:交互特征与多项式特征理解
特征工程:交互特征与多项式特征理解一、理解二、测试代码比较一、理解交互特征与多项式特征与数据预处理中的MinMaxScaler是相似的,都是对数据进行缩放处理缩放处理、交互特征与多项式特征都是对原始数据进行缩放,缩放意义在于使得权重与偏置更具有敏感性,更易对数据预测二、测试代码比较from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitfrom sklearn.pre原创 2020-12-29 22:53:59 · 774 阅读 · 0 评论 -
win10安装tersonflowb出错
win10安装tersonflowb出错一、报错二、解决方法(一)有效(一)无效(只是对我无效)一、报错通过查找,发现第一个报错内容为ERROR: Failed building wheel for wrapt.......Running setup.py clean for wrapt...........Failed to build wrapt.......#此处为简写,大体该报错的关键内容如上二、解决方法(一)有效链接: win10 安装tensorflow 报错“ERROR:原创 2020-07-06 09:39:27 · 3503 阅读 · 0 评论 -
粗糙的量刑模型-随机森林算法
粗糙的刑事量刑模型-随机森林算法一、效果(一)特征重要性(二)预测精度(三)结果二、大致思路(一)数据爬取一、效果(一)特征重要性(二)预测精度(三)结果监督学习的几个算法都试过,只有随机森林的测试集效果较好可以达到30%,其余大多只有20%多,当然如果继续调参可能会更好,但是整体而言,大致也仅在30%左右;训练集最好的时候可以到80%以上,但是测试集最高只能30%左右结论:模型泛化能力不足,拟合能力也不是非常好可能原因:特征使用的量刑情节使用的是0、1判断,可能过于稀疏而且提取时也可能存原创 2020-07-01 12:45:35 · 4380 阅读 · 1 评论 -
doc转为docx后不能打开,报错:docx.opc.exceptions.PackageNotFoundError: Package not found at
doc转为docx后不能打开,报错:docx.opc.exceptions.PackageNotFoundError: Package not found at一、报错二、解决方法1、参考博文2、最值得注意的地方一、报错docx.opc.exceptions.PackageNotFoundError: Package not found at二、解决方法1、参考博文参照博文: link.此处需要说明,我的问题并不是他的“其实问题就出在最后一行的第二个参数16上,16代表的存储格式为doc,我应原创 2020-06-22 09:46:30 · 7237 阅读 · 2 评论 -
《Python机器学习基础教程》第二章笔记:ValueError: cannot reshape array of size 4000000 into shape (1000,1000)
@[TOC](《Python机器学习基础教程》第二章笔记:ValueError: cannot reshape array of size 4000000 into shape (1000,1000))成功解决:增加命令y = y % 2一、报错ValueError: cannot reshape array of size 4000000 into shape (1000,1000)二、尝试解决意思:ValueError:无法将大小为4000000的数组重塑为形状(1000,1000原创 2020-06-20 10:49:15 · 7185 阅读 · 0 评论 -
《Python机器学习基础教程》第二章笔记:用于多分类的线性模型-三分类数据集
《Python机器学习基础教程》第二章笔记:用于多分类的线性模型-三分类数据集一、疑问二、理解一、疑问第一个数据集的可视化:from sklearn.linear_model import LogisticRegressionfrom sklearn.svm import LinearSVCimport mglearnfrom matplotlib import pyplot as pltfrom sklearn.model_selection import train_test_split原创 2020-06-18 21:49:12 · 2418 阅读 · 0 评论 -
《Python机器学习基础教程》第二章笔记:random_state的作用
《Python机器学习基础教程》第二章笔记:random_state的作用一、random_state的作用:固定系数与截距二、random_state的取值是对系数排序的结果,random_state值越小,系数越大一、random_state的作用:固定系数与截距random_state的作用在于固定lr.coef_、lr.intercept_,保证每次模型的系数、截距一致不加random_state时,系数与截距不停的变化:from sklearn.linear_model import Li原创 2020-06-18 10:43:10 · 4143 阅读 · 0 评论 -
《Python机器学习基础教程》第一章笔记(最简单的监督学习):鸢尾花品种预测
《Python机器学习基础教程》第一章笔记(最简单的监督学习):鸢尾花品种预测三行程序三行程序from sklearn.datasets import load_irisimport pandas as pdimport numpy as npfrom sklearn.model_selection import train_test_splitfrom sklearn.neighbors import KNeighborsClassifier iris_dataset = load_iri原创 2020-06-16 17:33:45 · 1612 阅读 · 0 评论 -
《Python机器学习基础教程》1.7.3笔记
《Python机器学习基础教程》1.7.3笔记第一个报错:AttributeError: module 'pandas' has no attribute 'scatter_matrix'第二个报错:MatplotlibDeprecationWarning: The colNum attribute was deprecated in Matplotlib 3.2 and will be removed two minor relea第三个问题:没有图形显示成果展示:第一个报错:AttributeE原创 2020-06-16 16:46:01 · 1675 阅读 · 2 评论 -
selenium节点(元素)遍历的疑惑
selenium节点的遍历一、节点遍历是什么二、问题三、解决方法四、结语一、节点遍历是什么例如:由于裁判文书网只显示前600个,我的思路就是通过关键词的限定实现内容在600条以内,因而完整的下载需要进行关键词的遍历html:二、问题直接进行遍历会报错,原因不明如:from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.support import原创 2020-06-09 11:59:10 · 4481 阅读 · 4 评论 -
图解HTTP读书笔记(精简)
1、网络层次:应用层-传输层(数据切分成数据包)-网络层(寻找ip、mac(网卡物理地址)-链路层(硬件调用)以快递为例:应用层就是寄件人;传输层就是快递小哥的分拣过程,将快递进行分类,发送到北京的一类、天津的一类网络层:就是中转路径,以跨省快递为例,大多都是非省会城市将快递发送到省会城市进行中转,省会城市重复快递小哥的分拣过程,寻找收件人城市的省会城市并发送,而收件人的省会城市寻找收件人城市所在地;当然这只是通常路径,需要看看各自快递的集散中心;许多快递集散中心不选择省会城市;这也可以直接由原创 2020-06-01 18:48:55 · 1608 阅读 · 0 评论 -
Hyper-V的启动方法
Hyper-V的启动方法Hyper-V作用:虚拟化,免得下载vmware与docker一起配置运行不能直接全选上,全选上Hyper-V也不会显示打勾的状态而是像上面的????????net一样是黑色的方框解决方法先勾选第一个,然后确定启动,这样可以不用重启电脑之后再次打开并进入,勾选第二个,就可以了,重启后看见上面这样全√的...原创 2020-05-29 12:54:27 · 3743 阅读 · 0 评论 -
重装系统后:tesseract 和 图片灰度化报错-PIL.UnidentifiedImageError: cannot identify image file
PIL.UnidentifiedImageError: cannot identify image file一、现象二、解决过程一、现象报错PIL.UnidentifiedImageError: cannot identify image file 'J:\\PyCharm项目\\项目\\项目二_文书内容提取\\提取模板模块\\parrot_new.png'二、解决过程更新pillow更换另一个图片后可以说明可能是该图片或者是其路径有问题更换路径后仍然一样:重新对图片进行检查发现,原创 2020-05-23 20:04:18 · 23765 阅读 · 1 评论 -
mitmproxy正常启动但是无法抓包
mitmproxy正常启动但是无法抓包一、现象二、原因(一)第一步:(二)第二步:重点在端口1、ip错误2、端口一、现象mitmproxy正常启动是指,cmd中出现了Proxy server listening at http://*:8080Loading script J:\PyCharm项目\项目\项目四_mitmproxy_and_email\addon.py(ps:正常导入脚本)但是没有这个界面而是二、原因查询方法:(一)第一步:确认系统证书;确认手机证书;确认代理正原创 2020-05-22 09:25:27 · 6913 阅读 · 2 评论 -
完全图解:linux及其图形界面的安装及其初步使用
linux安装及其初步使用一、简要认识(非常重要)(一)Linux系统版本问题(二)VMware虚拟机二、安装过程(一)安装centos哪一个版本(二)安装过程三、启动前言:在csdn中常常看到程安利使用Linux,且据说相对于windows系统来说十分优越,windows弱爆了。虽然如此,但是我还是没有下定决心使用Linux系统,因为重新学习一个系统比较麻烦,其学习耗时过多,能够用熟悉的系统就尽量用熟悉的系统。然而,在学习过程中,主要是看书,大部分书中都会介绍程序在两种系统中的安装过程:linux原创 2020-05-21 10:17:19 · 5768 阅读 · 0 评论 -
《Python数据处理》第十四章笔记
《Python数据处理》第十四章笔记一、Python日志二、邮件一、问题:一、Python日志源码及其注释import loggingfrom datetime import datetimedef start_logger():‘’‘日志初始化设置、文件名(时间)、DEBUG为调试级别(级别导致输出内容的不同)、日志的记录格式、日期格式’’’logging.basicConfig(filename='daily_report_error_%s.log' %原创 2020-05-19 18:18:25 · 2448 阅读 · 0 评论 -
plotly动态图片保存问题:The orca executable is required to export figures as static images, but it could not
plotly动态图片保存问题:The orca executable is required to export figures as static images, but it could not found on the sysytem path一、plotly图片输出一、plotly图片输出使用npm即node.js下载nodejs这个node.js有个讨厌的自动安装python的毛病,没有找到python就会自动安装,还要安装到C盘。我的python为3.7,不在C盘,导致凭空安装一个py原创 2020-05-19 17:12:55 · 3584 阅读 · 0 评论 -
《Python数据处理》10.2.3地图笔记
《Python数据处理》10.2.3地图笔记一、源码问题二、render_to_png一、源码问题源码worldmap_chart = pygal.Worldmap()worldmap_chart.title = 'Child Labor Worldwide'cl_dict = {}for r in ranked.rows: cl_dict[r.get('country_code_complete').lower()] = r.get('Total (%)')worldmap_chart原创 2020-05-18 21:17:17 · 2429 阅读 · 0 评论 -
《Python数据处理》9.1.6创建分组笔记:NameError:name text_type is not defined
《Python数据处理》9.1.6创建分组笔记:NameError:name text_type is not defined一、现象二、解决方法(一)查阅文档(二)Github中的问题寻找一、现象源码:import jsonfrom 数据集连接再测试 import cpi_and_climport pprintimport agatepath = 'I:\\360下载\\data-wrangling\\data\\chp9\\earth.json'country_json = json原创 2020-05-17 22:03:38 · 3353 阅读 · 0 评论 -
《Python数据处理》9.1.2探索表函数笔记:print不输出期望值而是输出内存地址或者数据类型
print输出内存地址或者数据类型一、输出内存地址、数据类型(一)内存地址(二)数据类型二、结论及解决之道一、输出内存地址、数据类型(一)内存地址a = 1print(id(a))直接输出内存地址是因为调用了id()方法print()方法在不调用id()方法时不会输出内存地址(二)数据类型但是有长得很像内存地址的数据类型其中at 0x00这样的内容原本以为是内存地址的,试图通过内存地址来输出相应的值,参见《https://blog.csdn.net/ainu2919/article/原创 2020-05-17 21:22:47 · 3660 阅读 · 0 评论 -
《Python数据处理》9.1.2探索表函数笔记:agate模块的关键为table
《Python数据处理》9.1.1导入数据笔记一、问题一一、问题一源码:most_egregious = table.order_by('Total (%)', reverse=True).limit(10)报错:KeyError: 'Total (%)'可能是自己写错了,但是agate出来的也是没有找出来哪里错了只能修改为most_egregious = table.order_by(table.column_names[1], reverse=True).limit(10)原创 2020-05-16 20:59:37 · 2592 阅读 · 0 评论 -
《Python数据处理》9.1.1导入数据笔记:agate.exceptions.CastError: Can not parse value as Decimal. Error at row
《Python数据处理》9.1.1导入数据笔记:agate.exceptions.CastError: Can not parse value as Decimal. Error at row一、报错现象:二、解决方法第一步:第二步:三、疑惑成功去掉报错后的截图一、报错现象:源码:def agate_data_check(self): '''数据类型猜测,将xlrd数据类型转为agate数据类型''' text_type = agate.Text() number_typ原创 2020-05-16 10:37:37 · 3854 阅读 · 0 评论 -
电脑卡在系统logo处
电脑卡在系统logo处一、现象电脑开机时卡在系统logo处即Windows10的图标处,如下图所示导致长时间停留于此或者2-10分钟才能开机,或者SSD开机时间在50秒左右。二、原因及解决方法原因:关闭了虚拟内存方法:开机后进入安全模式,注意进入安全模式的时间也会很长需要等待几分钟将虚拟内存打开后即可。进入此电脑,右键属性,选择高级系统设置,高级,性能栏的设置,选择高级,虚拟内存栏点击处更改,选择自动管理所有驱动器的分页文件大小,即可...原创 2020-05-15 18:44:13 · 4722 阅读 · 0 评论 -
《Python数据处理》7.2.7笔记:读取方式不能是二进制的即rb改为r
《Python数据处理》7.2.7笔记:读取方式不能是二进制的即rb改为r一、源码有误之处二、修改一、源码有误之处可能是自己买的盗版的印刷问题,但是更可能是源码错误源码:from csv import DictReaderimport pprintpath = 'I:\\360下载\\data-wrangling\\data\\unicef\\mn.csv'data = DictReader(open(path, 'rb'))data_row = [d for d in data]d原创 2020-05-15 09:00:57 · 1987 阅读 · 0 评论 -
《Python数据处理》7.2.4笔记:寻找唯一键的源码修改——由于zip方法
《Python数据处理》7.2.4笔记:寻找唯一键的源码修改——由于zip方法一、原因:zip方法二、修改后一、原因:zip方法参考《python中使用zip函数出现》,原因是为了节约内存,python3基于此对此进行了优化,输出只输出对象的内存位置而不打印出来。而在python2中可以直接输出到屏幕,解决方法:需要增加list源码:set_keys = set( ['%s-%s-%s' % (x_[0][1], x_[1][1], x_[2][1]) for x_ in zipp原创 2020-05-14 20:35:20 · 1694 阅读 · 0 评论 -
从文本进度条开始:谈谈自己缺失的Python基础知识
从文本进度条开始:谈谈自己缺失的Python基础知识一、文本进度条二、基础知识(一)Python center()方法(二)time.perf_counter()(三)print()三、练习的代码一、文本进度条在对π进行求值时看到了文本进度条,之前一直用的是tqdm模块。来源:步平凡:《使用 PYTHON 实现Π的计算》,链接: https://www.cnblogs.com/bpf-1024/p/10549896.html.源码:from math import fabs #原创 2020-05-13 17:01:59 · 1630 阅读 · 0 评论 -
《Python数据处理》7.2.1笔记: zip函数输出为“zip object at 0x00000272CAEDD488”
《Python数据处理》7.2.1笔记:zip函数输出为“zip object at 0x00000272CAEDD488”一、现象二、原因三、解决办法(一)增加一个list()(二)进行美化一、现象书中位置:2合并问题与答案的 第三个代码处:#变量名有不同,原为zipped_datazip_data = []for drow in new_data: zip_data.append(zip(head_row, drow)) #作者是直接打印的 zip_data[原创 2020-05-12 18:47:33 · 5999 阅读 · 1 评论 -
xmind中文乱码问题
xmind中文乱码问题中文乱码原因分析解决方法中文乱码新建的时候好好地,打开也OK,但是电脑重启后再次打开xmind的内容就出现中文乱码原因分析首先,软件语言正确,即状态栏、选项栏为中文此处如果出现问题在编辑栏/首选项进行更改首选项的语言中选择简体中文其次看看纲要中有没有问题,第三步检查文字属性,选择一个主题查看属性解决方法1、《最全的XMind乱码的解决方法,亲...原创 2020-05-06 11:39:43 · 5432 阅读 · 0 评论 -
解决:slate报错 AttributeError: module 'importlib._bootstrap' has no attribute 'SourceFileLoade
在学习《python数据处理》时遇到了安装slate出错,这个问题不仅在slate、在之前按照pycurl时也出现,一直没有解决,原因差不多,都是这个报错,涉及python setup.py egg_info Check the logs for full command output.报错内容:ERROR: Command errored out with exit status 1: c...原创 2020-05-01 20:37:39 · 6000 阅读 · 0 评论 -
《python数据处理》pdf文件解析模块:pdfminer和pdfplumber
pdfplumber以pdfminer为基础,但是pdfminer的操作过于复杂且代码过于冗长。注:pdfminer在python3.0以上为pdfminer3kpdfminer3k 实现解析的代码:from pdfminer.pdfparser import PDFParserfrom pdfminer.pdfdocument import PDFDocumentfrom pdfmi...原创 2020-05-01 17:47:03 · 2511 阅读 · 0 评论 -
案例爬取(其二):Error:11004、状态码200但是返回None——自己坑自己的步骤
第二步:进行具体正文的提取,此时不止出现前面的代理问题:Error:10060,还时长出现Error:11004,和返回None简直一脸懵逼,他妈的又全是英文,还不仅python错误,连window的各种错误都出来了!!!!!!!!!!!!!!!!!!!!各种查找都没有找到解决方法!!!各种尝试中发现当我一个一个输入url时,成功了!!!!但是进行遍历提取时却是状态码200 和返回No...原创 2020-05-01 13:37:11 · 3171 阅读 · 0 评论 -
《python数据分析基础》:[Errno 11004] getaddrinfo failed
《python数据分析基础》第6.4 seaborn的第三个图“成对变量之间的散点图与单变量直方图”'''成对变量散点图和单变量直方图'''iris = sns.load_dataset('iris')sns.pairplot(iris)在写这个代码时就存在一个疑惑,这个图的代码怎么没有数据或者说值,其他的可视化的图都会有值的导入,即使没有现成数据,也会使用pandas进行随机生成,例如...原创 2020-04-30 21:22:53 · 17323 阅读 · 7 评论 -
《python数据分析基础》4.1.1:生成的sqlite.db文件的查看
在《《python数据分析基础》4.1.1:报错——sqlite3.OperationalError: table csv has 5 columns but 4 values were supplied》生成了csv_database.db这个文件,但是直接记事本打开为乱码pycharm打开为乱码:使用sqlite的可视化工具,sqlitespy和mms-v2.1.1-communi...原创 2020-04-28 18:06:10 · 1749 阅读 · 0 评论 -
《python数据分析基础》4.1.1:报错——sqlite3.OperationalError: table csv has 5 columns but 4 values were supplied
第一个报错:sqlite3.OperationalError: table csv has 5 columns but 4 values were supplied原因:没有使用与作者一致的csv数据内容我的csv文件内容为4.1中的数据内容,进行了重复而已这个csv与作者的csv不同之处在于只有四列,作者有五列,但是在table = """CREATE TABLE IF NOT EXI...原创 2020-04-28 17:47:20 · 5564 阅读 · 0 评论 -
《Python数据分析基础》笔记:“TypeError, 'int' object is not iterable”
学习《Python数据分析基础》第3章最后一个例子:为每个工作簿和工作表计算总数和均值时,在pandas 实现这个例子中的data 处出现报错此处原例子没有添加str(),但是我运行是出现报错TypeError, ‘int’ object is not iterable找了半天没有解决,因为此处的 data = {"workbook": os.path.basename(workboo...原创 2020-04-27 19:48:43 · 11411 阅读 · 5 评论 -
蓝屏stop:0x000000074之再修复
今天,我的电脑再次蓝屏,报错和上次的一样图片来源:《修改msconfig后出现蓝屏无法开机 解决办法》,不敢再来一次蓝屏了,但是报错信息一样。这次比上次更加严重,安全模式也无法进入,可以进入安全模式参照《开机加速与蓝屏stop:0x000000074》.此处原因还是与上次一样,电脑是在太慢了,再次试图加速。但是这个不仅蓝屏报错:stop:0x000000074而且连安全模式都没有办法进入...原创 2020-04-18 22:37:14 · 12303 阅读 · 1 评论 -
《python3网络爬虫开发实战》学习笔记:pyspider报错Exception: HTTP 599: SSL certificate problem...
报错信息:Exception: HTTP 599: SSL certificate problem: unable to get local issuer certificate 之前刚进去的第一个页面时候也是这个报错,但是等到今天它就没有了,我准备再等等。万一好了了!! 之前第一个页面就是这个页面(出现报错): ![在这里插入图片描述](https://img-blog.csdnimg...原创 2020-03-27 12:07:51 · 1592 阅读 · 1 评论 -
《python3网络爬虫开发实战》学习笔记:scrapy下载图片失败:WARNING: Dropped: IMAGE Downloaded Failed(记拼写错误))
最近再学崔庆才大神的《python3:网络爬虫开发实战》,已经爬取到了相关信息,但是下载出错。出现预设的下载报错:[scrapy.core.scraper] WARNING: Dropped: IMAGE Downloaded Failed 但是用的pycharm的terminal 没有出现报错,scrapy运行正常。 而在学习中对其中许多参数不了解,不知道为什么import,又有什么用。于...原创 2020-03-27 10:41:39 · 2380 阅读 · 1 评论