![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
个人小记
文章平均质量分 54
程序小学生
好好学习 天天向上
展开
-
CSDN杂记
标题 CSDN开始 其实很早之前就接触到CSDN,但一直因为懒,不愿意把自己所学的积累下来写成博客。遇到问题就是百度一下,然后解决,不做积累,这也导致了我第二次遇到问题还得重新百度,花费了大量的时间。而且随着学习的深入,大家基本都会把自己的一些项目或者问题记录下来。所以今天开始我也准备每天记录一下我的知识,问题。如果能帮到有需要的人,那自然是最好,最主要的还是想对自己负责,努力让自己变得更优秀吧...原创 2018-10-16 15:25:50 · 121 阅读 · 0 评论 -
JupyterNotebook使用
这篇文章是基于一篇最初出现在Alex Rogozhnikov的博客上的文章Jupyther notebook ,也就是一般说的 Ipython notebook,是一个可以把代码、图像、注释、公式和作图集于一处,从而实现可读性分析的一种灵活的工具。 Jupyter延伸性很好,支持多种编程语言,可以很轻松地安装在个人电...转载 2019-01-18 21:20:11 · 943 阅读 · 0 评论 -
携程车次信息爬虫
携程车次信息爬虫工具:Pycharm,win10,Python3.6.41.需求分析今天我们要爬取携程a上面的车次信息,只爬取直达的班次。我们需要的信息如下我们以昆山到苏州为例,要获取如下信息,我们查看网页源码发现这些信息并不存在网页源码中。打开开发者工具,点击XHR,我们可以看到数据都存放在一个异步请求中。数据格式是json,获取很方便,我们要做的就是能获取到该页面信...原创 2019-02-28 20:10:41 · 3118 阅读 · 6 评论 -
百度地图爬虫
百度地图爬虫工具:Pycharm,win10,Python3.6.41.需求分析上面是我们正常打开百度地图看到的画面,我们只需要在输入框输入我们想查找的东西就能获取到相应信息,今天我们要获取每个地区的养老院的数量。我们随便输入一个地区,如上海徐汇区。网页中打开开发者选项,就能看到返回的json数据中的total数量。这就是我们要获取的养老院的数量。注意这里是get请求,我们...原创 2019-02-26 16:18:15 · 10285 阅读 · 2 评论 -
豆瓣电影短评爬虫
豆瓣电影短评爬虫工具:Pycharm,win10,Python3.6.41.需求分析需要爬取评论者的ID和评论内容,需求十分的简单。2.爬虫思路我们要的数据直接就在网页源码中,只需要获取网页源码,用正则匹配出我们要的信息即可。评论一共有5页,我们需要通过循环去构建5条url。最后数据写入txt中。代码如下:from urllib import requestim...原创 2019-02-27 10:32:17 · 2182 阅读 · 0 评论 -
高德地图爬虫
高德地图爬虫工具:Pycharm,win10,Python3.6.41.需求分析这篇爬虫和上一篇百度地图爬虫要求一样,百度地图爬虫我发现有一个auth参数会一直变化,一旦变化则获取的数据是不准确的,所以我上高德地图看了一下,高德地图没有这个反爬机制。但是高德地图大概爬取120个页面就会跳一次验证码,我这里是通过换IP解决这个问题的。2.数据准备同样我们需要全国地级市信息,用之前...原创 2019-02-27 11:11:13 · 11607 阅读 · 3 评论 -
pd.read_csv()报错:OSError: Initializing from file failed
pd.read_csv()报错:OSError: Initializing from file failed最近在读取csv文件的时候出现了OSError: Initializing from file failed这个报错,后来查阅资料知道是文件名中出现了中文。后来查看pandas源码才知道在读取csv文件的时候默认使用C engine作为parser engine,我们只需要把读取方式改为...原创 2019-03-09 20:39:44 · 362 阅读 · 0 评论 -
爬虫时多种类信息写入
爬虫时多种类信息写入爬虫时,我们一般会确定我们要哪些信息然后写入文件中。但有时候遇到如下情况,我们需要的信息有a,b,c,d,e,f,g,h。这8个信息,但是在第一个页面中只有a,b,c,d这四个信息,第二个页面中有c,d,e,f,h这4个信息,但我们写入文件的时候要求是如下格式:a b c d e f g h a b c d...原创 2019-03-12 19:25:51 · 164 阅读 · 0 评论 -
Python题目练习
Python题目练习1.输入成绩,高于80优秀,60~80通过,低于60不及格mark=int(input("mark:"))print(["Fail","Pass","Good"][(mark>=60)+(mark>=80)])#输出成绩等级这是我没有见过的一种思路,特此记录一下,Python中True就是1,False就是02.输入如下图片结果for...原创 2019-04-13 16:43:03 · 1567 阅读 · 3 评论 -
LDA,Perceptron,SVM三种算法的sklearn简单使用
数据如下x1 = [1,5,1.5,8,1,9]x2 = [2,8,1.8,8,0.6,11]y = [0,1,0,1,0,1]预测[0.58,0.76]LDA算法from sklearn.discriminant_analysis import LinearDiscriminantAnalysisimport numpy as nptrain_x = np.arra...原创 2019-04-15 10:30:01 · 704 阅读 · 0 评论 -
SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame See the
SettingWithCopyWarning:A value is trying to be set on a copy of a slice from a DataFrameSee the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-vie...原创 2019-04-28 16:27:48 · 1029 阅读 · 0 评论 -
Python下载图片
Python下载图片工具:Pycharm,Win10,Python3.6.4这次就是一个很简单的案例,做一个图片爬虫。思路就是获取图片链接,然后下载图片,保存文件,模块代码如下。# 根据图片链接下载def download_image(img_url, i): print('正在下载', img_url) try: response = reques...原创 2019-05-30 10:29:50 · 864 阅读 · 0 评论 -
Python练习(二)
Python题目练习(二)1.要求:在不增加或修改任何print语句,且函数内只能增加一条语句的情况下,输出:"eric"。1)只能修改f1()函数情况下,完成上述要求name = 'lzl'def f1(): name = 'eric' print(name)def f2(): name = 'eric' f1()f2()2)只能修...原创 2019-05-30 13:54:36 · 5251 阅读 · 0 评论 -
Python练习(三)
Python题目训练(三)时间处理。输入一个时间字符串,返回下一个月的1号。输入的时间格式包含两种:1. 2018.09.152.2018‑9‑15func('2018.09.15') => '2018-10-01'func('2018-9-15') => '2018-10-01'def func(date): if '.' in date: ...原创 2019-05-30 14:19:26 · 432 阅读 · 0 评论 -
Python租房数据简单分析
Python租房数据简单分析数据集:包含title,price,size,block,type代码from matplotlib import pyplot as pltimport pandas as pdimport jiebaimport wordcloudfrom scipy.misc import imreadplt.rcParams['font.family...原创 2019-01-07 19:02:20 · 3741 阅读 · 7 评论 -
破解网页按钮不可用
破解网页按钮不可用之前帮人做爬虫提取被隐藏的链接,但是最近这个链接的一个按钮不可用了,如下图:对此只需要获取该按钮的id在网址输入一段代码即可。1.获取按钮id正常来说打开谷歌浏览器,右击按钮,选择检查,即能跳转到相应的id。但此处的按钮已经不可用了,所以无法直接检查其对应的id。我们只能在element中查找到该按钮id。以上我们就获取到了按钮ID:bidBtn。...原创 2019-01-07 18:28:28 · 2411 阅读 · 0 评论 -
Python打包exe并不闪退
Python打包exe近期自己做了一个小demo要分享给朋友,但是朋友又没有python环境,所以打包成exe。下面就记录一下自己打包exe方法工具Python 3.6.2Pyinstaller 3.3.1安装Pyinstaller直接pip安装,没什么好说的pip install Pyinstaller命令详解在这里我讲述我的打包方法,详细方法可见百度经验。...原创 2018-11-01 14:00:33 · 3981 阅读 · 1 评论 -
python不以科学计数法显示数据
python不以科学计数法显示数据今天在学机器学习的东西,但是运行结果一直都是科学计数法,让我理解起来有点难。网上搜集了一些资料发现只要一行代码即可解决这个问题。np.set_printoptions(suppress=True)其中np就是numpy。...原创 2018-11-07 14:54:31 · 23686 阅读 · 5 评论 -
Python获取网页编码
Python获取网页编码在做爬虫的时候有的网站中的网页可能有不同的编码方式,我们则需要把获取到的数据根据网页编码方式获取。所以我们要先判断当前网页使用的是何种编码方式,为此我使用requests库解析当前页的编码方式。requests库是常用的网页解析库,也是我做爬虫时一直使用的库。其中的apparent_encoding方法可以正确获取当前网页的编码方式。import reques...原创 2018-11-19 13:43:39 · 1396 阅读 · 0 评论 -
柱状图,CSV写入,字符串表达式
Python笔记最近做了一些小demo练习,今天就把之前遇到的一些小问题汇总一下。1.利用matplotlib库绘制了一个直方图,效果如下但是一开始的话效果确实这样的,这是直接调用了plt.hist(time_list)这行代码,并没有修改任何的参数,为了调整下面的统计图,我们添加如下参数plt.hist(time_list, rwidth=0.85,bins=99)#一单位...原创 2018-12-08 13:02:10 · 333 阅读 · 0 评论 -
第一次面试小记
第一次面试小记昨天去上海参加了一家公司面试,面试的是爬虫岗。下面我就记录一下遇到的问题。问题先后顺序按想到哪个写哪个。1.多线程进程是程序执行的最小单元,每个进程都有自己独立的内存空间,而线程是进程的一个实体,是系统调用的一个基本单位。当我们启动一个app的时候这就创建了一个进程,这个app里可能有语音播放、搜索等功能,这就是进程里不同的线程。线程是轻量级的,他没有独立的空间地址(...原创 2018-12-19 15:07:05 · 226 阅读 · 0 评论 -
Python装饰器
Python装饰器使用Python做爬虫也有3个月的时间了,但是对于Python的相关知识还是有一点缺乏。最近了解到了装饰器,觉得这是我缺乏的一个知识点,因此记录一下。1.函数在python中,函数通过def关键字、函数名和可选的参数列表定义。最后可以使用return关键字返回值,如下就是一个简单的函数:def fun(x): x +=1 return xif ...原创 2018-12-14 12:27:05 · 109 阅读 · 0 评论 -
Python项目生成requirements.txt文件
Python项目生成requirements.txt文件我们在写Python脚本的时候往往会用到很多第三方库,但是当我们把脚本换个环境之后就需要手动安装第三方库,有时候有的第三方库还需要一些别的依赖。为了省事,我们可以导出一个requirements.txt,把需要安装的第三方库放在里面。下面我们就讲一下如何导出这个requirements.txt。方法一:pip freeze &g...原创 2018-12-26 21:53:38 · 2561 阅读 · 0 评论 -
Python matplotlib绘制饼图
Python matplotlib绘制饼图最近用到了matplotlib库绘制饼图,之前也没有做过,所以网上查阅了一些资料plt.rcParams['font.sans-serif']=['SimHei'] # 用黑体显示中文plt.figure(figsize=(14,6))ax1 = plt.subplot(1,2,1) #一行两列第一个图shapes1 = ['0-...原创 2018-12-11 19:35:25 · 2477 阅读 · 0 评论 -
Python爬虫长时间出现SSL证书验证问题
Python爬虫长时间出现SSL证书验证问题今天做了一个爬虫程序,运行好好的,但是运行2个小时之后突然报错了,看了一下也不是IP原因,也不是代码逻辑问题。报错信息是requests.exceptions.SSLError: ("bad handshake: Error([('SSL routines', 'tls_process_server_certificate', 'certifi...原创 2018-12-24 23:25:39 · 1776 阅读 · 0 评论 -
Python进程池Pool
Python进程池Pool最近做了一个demo,用到了进程池,要提升速率,但是打包成exe之后程序直接卡死了。网上搜索之后发现在Win系统下要加freeze_support()这么一段代码if __name__ == '__main__': while True: try: freeze_support() nu...原创 2018-12-25 00:06:07 · 293 阅读 · 0 评论 -
Python自动发短信给自己手机
Python自动发短信给自己手机国外有一家公司Twilio推出了一项自动发送短信的服务,只需要在官网上注册并且获取权限即可,这在我们做服务器监控或者其他监控内容时有很大的作用,下面我直接提出代码。from twilio.rest import Clientaccount_sid = 'ACc54**************************b'auth_token = '***...原创 2018-12-31 13:27:54 · 5968 阅读 · 1 评论 -
KNN算法预测iris数据集
KNN算法预测iris数据集1.数据集介绍鸢尾花灰Iris数据集中有150个样本,每个样本有4个特征,1个标签。其中,鸢尾花种类可取0、1、2,分别代表山鸢尾setosa、变色鸢尾versicolor、维吉尼亚鸢尾virginica。2.代码解析首先导入iris数据集,在sklearn库里面已经有了。iris.data()是特征数据,iris.target()是标签数据。根据这...原创 2019-01-07 16:00:13 · 2531 阅读 · 0 评论 -
Python练习(四)
Python练习(四)1.矩阵转置,输入一个4行5列的矩阵并转置a = []#行数控制for i in range(4): a.append([]) #列数控制 for j in range(5): print('第'+str(i+1)+'行,第'+str(j+1)+'列') a[i].append(int(input('请输入...原创 2019-06-14 11:46:39 · 783 阅读 · 0 评论