python
韩韩的博客
在读学生。座右铭:愿中国青年都摆脱冷气,只是向上走,不必听自暴自弃者流的话。能做事的做事,能发声的发声。有一分热,发一分光。就令萤火一般,也可以在黑暗里发一点光,不必等候炬火。愿君安。
展开
-
Kaggle心脏病数据集为例学习机器学习的可解释性分析
最近在B站看视频的时候,偶然看到同济子豪兄发的关于机器学习可解释性的视频,因为之前学习机器学习也是学习机器学习的算法以及调库、调参,而模型的内部还是感觉是一个黑箱子。废话不多说:直接上代码。需要安装的工具包pip install numpy pandas matplotlib seaborn wheel pandas_profiling jupyter notebook -i https://pypi.tuna.tsinghua.edu.cn/simplepip install graphviz p原创 2020-05-25 13:13:13 · 8210 阅读 · 4 评论 -
实时数据可视化系统的搭建(含代码)
之前一直在做别的事情,就忘记整理系统的文档了。现在正好闲下来,开始整理吧!本系统是基于肺炎疫情的实时数据可视化系统。界面图如下:网站如下:网站地址该网站使用的技术和工具有:python网络爬虫、docker技术、Flask、Ajax等。我这里爬取的是腾讯的疫情数据。代码如下:#return:返回历史数据和当天的详细数据import requestsimport jsonimpor...原创 2020-04-12 17:11:58 · 4732 阅读 · 11 评论 -
scrapy框架利用start_requests方法改写post请求
scrapy默认发起的是get请求,如果你想发起post请求该怎么办呢? 解决办法就是利用start_request方法,对该方法进行改写,进行post请求。 我们以post请求http://httpbin.org为例子讲解。 我们可能本能的以为改掉start_urls就可以了 例如:class HttpbinSpider(scrapy.Spider): name = 'htt...原创 2018-08-03 14:48:59 · 14975 阅读 · 0 评论 -
scrapy框架之custom_settings讲解(详细)
custom_setting:是对setting中的文件内容进行覆盖。 这里我们以爬取知乎的网站为例。 知识点介绍: custom_settings :对框架中的内容进行覆盖,比如我想覆盖setting中的headers的内容,那么只要将header的内容写入custom_settings中,然后改变headers的值即可, 当程序再次运行时会覆盖以前setting的headers值,而运行你...原创 2018-08-03 10:56:56 · 14814 阅读 · 1 评论 -
scrapy框架之选择器
本文内容比较乱,只作为本人自己复习使用,不供他人学习使用。见谅。目标网站# https://doc.scrapy.org/en/latest/_static/selectors-sample1.html# scrapy shell https://doc.scrapy.org/en/latest/_static/selectors-sample1.html# 命令行交互模式...原创 2018-08-02 23:02:31 · 242 阅读 · 0 评论 -
scrapy简单实战
本程序有部分错误,请见谅。但其中所涉及的知识点尤为重要。 本爬虫爬取的是http://quotes.toscrape.com/‘的文本内容。具体请参考代码注释 quotes.pyimport scrapyfrom items import QuoteItemclass QuotesSpider(scrapy.Spider): name = 'quotes' allow...原创 2018-08-02 21:48:33 · 381 阅读 · 0 评论 -
scrapy中spider的用法
spider中定义了如何爬取某些网站。 中文文档主要内容 1.spider中起始的request是通过调用start_request()来采取的,start_request()读取start_url中的url,并以parse为回调函数生成reuqest 2在回调函数内即parse中分析返回的网页内容,返回Item或者Request或者一个包括二者的可迭代容器。返回的request对象之后会经...原创 2018-08-07 16:40:31 · 1594 阅读 · 0 评论 -
python爬虫之xpath的使用方法
XPath的使用方法: 四种标签的使用方法 1) // 双斜杠 定位根节点,会对全文进行扫描,在文档中选取所有符合条件的内容,以列表的形式返回。 2) / 单斜杠 寻找当前标签路径的下一层路径标签或者对当前路标签内容进行操作 3) /text() 获取当前路径下的文本内容 4) /@xxxx 提取当前路径下标签的属性值 5) | 可选符 使用|可选取若干个路径 如//p |...原创 2018-08-02 21:30:39 · 506 阅读 · 0 评论 -
数据集的格式化下载程序
很多时候我们需要去数据集的网站下载数据,可是真正下载下来你会发现你下载下来的数据很乱,要进行复杂的数据清洗工作还需要很大力气。如下程序可以减少数据清洗的工作,一起去下载数据集吧import pandas as pddef ReadAndSaveDataByPandas(target_url = None,save=False): Data = pd.read_csv(target_u...原创 2018-08-07 08:38:47 · 255 阅读 · 1 评论 -
python爬虫之scrapy框架命令行(超级详细)
知识点1.创建项目scrapy startproject testproject# testproject是项目的名称可以自己命名输出结果为:C:\Users\qs418>scrapy startproject testprojectNew Scrapy project 'testproject', using template directory 'd:\\pyth...原创 2018-08-02 13:04:53 · 7872 阅读 · 1 评论 -
python爬虫之scrapy框架的安装(详细)
正常情况下scrapy在windows下面安装时非常麻烦的。这里面涉及到各种库的安装。 关于库的安装,平常的安装方法很有可能失败,可能受网速等原因的限制。直接在dos控制台下面安装容易失败。特此,我们使用的方法是将包先下载到本地(这个过程比较慢,有条件的可以翻墙),然后在控制台下用命令进行安装。 我们安装的库有: 1.wheel::直接输入pip install -i https://py...原创 2018-08-02 08:34:56 · 821 阅读 · 0 评论 -
json.dumps(),json.loads(),json.dump(),json.load()方法的区别(超级详细)
1. json.dumps() json.dump()是将字典类型转化成字符串类型。import jsondic = {'a':'1111','b':'2222','c':'3333','d':'4444'} st = json.dumps(dic)print("我是字典类型的", dic)print("我是字符串类型的",st)print(type(dic))print(ty...转载 2018-08-01 22:32:14 · 6334 阅读 · 0 评论 -
python爬虫之pool.map()
pool = Pool() # 创建进程池 pool.map(main, [i*10 for i in range(10)])# 将数组中的每个元素提取出来当作函数的参数,创建一个个进程,放进进程池中# 第一个参数是函数,第二个参数是一个迭代器,将迭代器中的数字作为参数依次传入函数中作用:这是多进程的创建,应用在爬虫中主要目的是提高爬取的效率,实现秒爬...原创 2018-08-01 17:18:56 · 15455 阅读 · 4 评论 -
关于jupyter notebook闪退解决方案(亲测好用)
找到jupyter notebook的快捷方式,然后右键属性,找到‘目标’,然后去掉%XXX%里的内容,保存即可。原创 2018-11-28 19:40:17 · 12383 阅读 · 12 评论 -
jupyter notebook常用快捷命令
Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 Esc 开启)Enter : 转入编辑模式Shift-Enter : 运行本单元,选中下个单元Ctrl-Enter : 运行本单元Alt-Enter : 运行本单元,在其下插入新单元Y : 单元转入...原创 2018-11-28 19:50:09 · 2705 阅读 · 0 评论 -
机器学习1-数据预处理
数据预处理第一步导入我们需要的库:numpy:数学计算函数。pandas:导入和管理数据集。第二步:导入数据集通常数据集的格式是csv的。csv是以文本形式保存数据的。每一行是一条数据。读取数据:使用pandas的read_csv方法读取本地csv为一个数据帧。然后从一个数据帧中制作自变量的因变量的矩阵和向量。dataset = pd.read_csv('Data.csv')##读取...原创 2019-04-12 22:28:28 · 385 阅读 · 0 评论 -
tensorflow笔记神经网络优化之滑动平均
滑动平均(影子值):记录了每个参数一段时间内过往值的平均,增加了模型的泛化性。针对所有参数:W和b滑动平均的感觉就好像是给参数加了影子,参数变化,影子也缓慢跟随。衰减率是滑动平均的一个超参数值,一般给一个较大的值。当前轮数是和程序中的其他的轮数共用。ema.apply()列出了对括号中的参数求滑动平均。在实际中使用tf.trainable_vaeiables()将待训练的参数训练成列表...原创 2019-10-07 09:56:44 · 187 阅读 · 0 评论 -
入门tensorflow笔记之tensorflow框架
1.使用tensorflow搭建神经网络时:通常使用张量表示数据,用计算图搭建神经网络,使用会话执行计算图,优化神经网络的参数,得到模型。张量(tensor):多维数组(列表) 阶:张量的维数。张量可以表示0阶到n阶的数组。tensorflow的数据类型有tf.float32 tf.int32等等。import tensorflow as tfa=tf.constant([1.0,2...原创 2019-10-01 18:12:58 · 211 阅读 · 0 评论 -
山东科技大学济南校区+集成学习和随机森林
集成学习和随机森林:from sklearn.ensemble import RandomForestClassifier>>> from sklearn.ensemble import VotingClassifier>>> from sklearn.linear_model import LogisticRegression>>> ...原创 2019-07-27 21:58:24 · 443 阅读 · 0 评论 -
pandas.read_csv参数整理
pandas.read_csv参数整理读取CSV(逗号分割)文件到DataFrame也支持文件的部分导入和选择迭代更多帮助参见:http://pandas.pydata.org/pandas-docs/stable/io.html参数:filepath_or_buffer : str,pathlib。str, pathlib.Path, py._path.local.LocalPath ...转载 2019-07-23 20:11:57 · 136 阅读 · 0 评论 -
python生成大量随机信息,并保存到Excel文件中
题目要求生成大量随机信息1000条,(每条信息包括:姓名、性别、年龄、籍贯、电话号码、地址、电子邮件、数学成绩、英语成绩)统计分析数学成绩90分以上的人的性别、年龄、籍贯。尝试将上述随机生成信息写入到Excel文件中。代码实现from random import choice,randintimport stringimport codecsimport randomfrom ope...原创 2019-07-11 17:41:08 · 7312 阅读 · 5 评论 -
tensorflow的安装教程及入门实例
手把手教你如何安装Tensorflow(Windows和Linux两种版本)https://blog.csdn.net/cs_hnu_scw/article/details/79695347TensorFlow在win10上安装–精简教程https://blog.csdn.net/m0_37259197/article/details/81485315多版本python安装TensorFl...转载 2019-07-11 17:36:31 · 7385 阅读 · 1 评论 -
使用密码字典暴力破解加密rar、zip压缩文件
题目介绍将加密的压缩文件使用密码字典解压。具体文件的目录如下:pwd.txt文件里面存放可能的密码。file1234.rar和file123.zip为加密的压缩的文件。具体代码如下:# zip文件import zipfileimport os# 对zip文件进行密码测试,成功返回True,失败返回Falsedef testZip(filePathname,password):...原创 2019-07-11 17:33:29 · 14433 阅读 · 2 评论 -
手写数字识别代码实现(准确度99%)
import tensorflow as tffrom tensorflow.examples.tutorials.mnist import input_data##查看训练数据集的大小#print(mnist.train.images.shape)#print(mnist.train.labels.shape)def weight_variable(shape): ini...原创 2019-07-11 17:26:21 · 5663 阅读 · 1 评论 -
tensorboard OSError: [Errno 22] Invalid argument错误处理
当tensorboard OSError: [Errno 22] Invalid argument错误时可能是因为你的tensorboard的版本的问题。解决方法:1.查看tensorflow的版本。conda list2.如果你的tensorflow和tensorboard都是1.13.1的话,那么卸载tensorboardpip uninstall tensorboard3....原创 2019-07-13 16:23:01 · 1969 阅读 · 0 评论 -
Python zipfile大全
初步应用1.1zipfile.ZipFile(fileName[, mode[, compression[, allowZip64]]])fileName是没有什么疑问的了。mode和一般的文件操作一样,'r’表示打开一个存在的只读ZIP文件;'w’表示清空并打开一个只写的ZIP文件,或创建一个只写的ZIP文件;'a’表示打开一个ZIP文件,并添加内容。compression表示压缩格式...原创 2019-07-08 14:42:25 · 4396 阅读 · 0 评论 -
机器学习之pandas常用函数笔记
import pandas as pdfood_info=pd.read_csv("food_info.csv")###将数据传入。指定文件名即可。使用相对路径。print(type(food_info))###将数据通过pandas传入,pandas的数据结构就是dataframe print(food_info)print(food_info.dtypes)###查看数据的结...原创 2019-04-27 22:22:19 · 224 阅读 · 0 评论 -
python爬虫错误之json.dumps()方法产生中文乱码问题解决方法
json.dumps()方法是将字典型数据转化成字符串型数据,而json.dumps ()方法对中文默认使用的ascii编码.如果要输出中文需要指定ensure_ascii=False:具体猫眼电影程序如下: 可能各位在爬取猫眼程序时会出现错误: 这可能是猫眼电影的反爬虫,不过等一段时间再去爬就可以了。import requestsimport reimport jsonfrom r...原创 2018-08-01 16:38:16 · 3611 阅读 · 0 评论 -
利用requests库和正则表达式爬取猫眼电影
import requestsimport reimport jsonfrom requests.exceptions import RequestExceptiondef get_one_page(url, headers): try: response = requests.get(url, headers) if response.stat...原创 2018-08-01 15:47:40 · 421 阅读 · 0 评论 -
机器学习之二元高斯分布图像绘制
import numpy as npfrom scipy import statsimport matplotlib as mplimport matplotlib.pyplot as pltfrom mpl_toolkits.mplot3d import Axes3Dfrom matplotlib import cmif __name__ == '__main__': x1,...原创 2018-07-29 20:51:13 · 2134 阅读 · 0 评论 -
机器学习之损失函数图像绘制
import numpy as npimport mathimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = Falseplt.figure(figsize=(8, 5))x = np.linspace(start=-2...原创 2018-07-29 20:49:52 · 19064 阅读 · 0 评论 -
机器学习之房价预测程序
import numpy as npimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']plt.rcParams['axes.unicode_minus'] = Falsex, y = [], []for sample in open('D:/MLData/prices.txt',"r"):#...原创 2018-07-29 20:48:00 · 1980 阅读 · 1 评论 -
机器学习之奇异值分解应用程序
import numpy as npimport osfrom PIL import Imageimport matplotlib.pyplot as pltimport matplotlib as mplfrom pprint import pprintdef restore1(sigma, u, v, K): # 奇异值、左特征向量、右特征向量 m = len(u)...原创 2018-07-29 20:47:10 · 453 阅读 · 0 评论 -
python爬虫之requests库实例代码
# 简单实例引入# import requests# response = requests.get('https://www.baidu.com')# print(type(response))# print(response.status_code)# print(response.text)# print(response.cookies)# 请求方式# import r...原创 2018-07-29 20:40:48 · 1908 阅读 · 0 评论 -
python爬虫错误 之 write() argument must be str, not bytes
当遇到标题的错误时候,请把以写的方式读入文件即 with open('./baidu.txt','w') as fp: fp.write(response.read())改成”w”改成”wb+“,意思是将原来的以写方式打开文件,改为以二进制模式打开文件 # urllib模块:请求返回网页 # 主要函数:urlopen():打开http,https,ftp协议...原创 2018-07-26 14:40:58 · 5212 阅读 · 1 评论 -
python爬虫之'urllib' has no attribute 'URLError错误
‘urllib3’ has no attribute ‘URLError是由于版本的问题出现错误,python3,0无法继续使用urllib,只要将所有urllib的地方更改为:urllib.request即可。import urllib.requestimport timeimport platformdef clear(): print('翻页') time....原创 2018-07-26 14:23:48 · 3750 阅读 · 0 评论 -
python爬虫之httperror与urlerror
httperror:当我们向服务器发出请求时,服务器会产生response请求,如果urlopen不能处理则爆出httperror异常 httperror的父类是urlerror异常 urlerror:产生的原因主要是1.网络没有连接,2服务器连接失败,3,找不到指定的服务器。 我认为:httperror时urlerror的详细化的错误异常,url只能粗略的判断异常的原因,而httper...原创 2018-07-29 09:57:01 · 1702 阅读 · 0 评论 -
FileCookieJar的子类MozillaCookieJar和LWPCookieJar实现了save()方法
FileCookieJar的子类MozillaCookieJar和LWPCookieJar实现了save()方法。# 经典实例1:import http.cookiejar,urllib.requestfilename = 'cookie.txt'cookie = http.cookiejar.MozillaCookieJar(filename)handler = urllib.req...原创 2018-07-29 07:44:22 · 1757 阅读 · 0 评论 -
python爬虫之cookie的HTTPCookieProcessor
通过阅读源码我们可以知道,我们在调用urllib2.urlopen(url)的时候,其实urllib2在open函数内部创建了一个默认的opener对象。然后调用opener.open()函数。 但是默认的opener并不支持cookie。 那么我们先新建一个支持cookie的opener。urllib2中供我们使用的是HTTPCookieProcessor。创建HTTPCookiePro...原创 2018-07-28 21:47:48 · 4044 阅读 · 0 评论 -
numpy中的stack()
stack()函数 函数原型为:stack(arrays, axis=0),arrays可以传数组和列表。axis的含义我下面会讲解,我们先来看个例子,然后我会分析输出结果。import numpy as npa=[[1,2,3], [4,5,6]]print("列表a如下:")print(a)print("增加一维,新维度的下标为0")c=np.stack(a,...转载 2018-07-25 21:49:07 · 2043 阅读 · 0 评论