![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
文章平均质量分 96
张峰π_π
这个作者很懒,什么都没留下…
展开
-
python实现API的调用
python实现API的调用以及数据接口的调用,常用的一些API参考示例。原创 2021-12-11 10:06:33 · 39401 阅读 · 10 评论 -
python实现文本翻译
在很多数据处理的时候,我们可能会面临一个问题-多语言的文本数据,比如我最近做的一个评论数据分析,我们发现这个数据有多种语言形式,这个时候我们需要对它进行统一化,方面后面的进行,不然可能会面临多语言分情况分析(比如做情感分析的时候,语言不同,它所使用的模型也不同),所以这篇博客也是为了那个问题解决所介绍的。下面我主要介绍几种方法:1.translate...原创 2019-11-25 12:02:50 · 11116 阅读 · 3 评论 -
scrapy爬取360美食图片
基本介绍上面有篇博客专门对scrapy入门爬取进行了一个简单介绍,而且实现了对新闻网站数据的爬取,这次我们将要爬取360上面的美食图片。我们将图片相关的信息保存在MYSQL和MongDB数据库中,首先我们需要安装好MYSQL和MongDB数据库,安装这一块大家可以参考网上的安装教程。需求分析首先我们需要了解我们爬取的目标网站:https://image.so.com/z?ch=food,打开...原创 2019-11-09 22:03:26 · 551 阅读 · 0 评论 -
pyecharts绘图
基本介绍pyecharts是一个基于百度开发的echarts的一个第三方库,它绘制的图像功能更强大。交互性比较强,在用作展示等方面是一个值得使用的第三方库。在了解这个第三方库之前我们了解一下Echarts.ECharts是一个免费的、功能强大的、可视化的一个库。它可以非常简单的往软件产品中添加直观的、动态的和高度可定制化的图表。它是一个全新的基于zrender的用纯JavaScript打造完...原创 2019-11-09 15:28:21 · 5203 阅读 · 2 评论 -
seaborn绘图包的使用
Seaborn概述Seaborn是基于matplotlib的Python数据可视化库,并与pandas数据结构紧密集成。它提供了一个高级界面,用于绘制引人入胜且内容丰富的统计图形。它相对matplotlib用起来很简单,只需要简单几行代码就能绘制出比较好的图。seaborn提供的一些功能面向数据集的API,用于检查多个变量之间的关系专门支持使用分类变量显示观察结果或汇总统计信息可视化单...原创 2019-10-28 12:19:57 · 1279 阅读 · 0 评论 -
scrapy框架入门
scrapy框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各...原创 2019-10-24 19:16:38 · 338 阅读 · 0 评论 -
pandas 入门学习
概述pandas作为python的第三方库,它所包含的数据结构和数据处理工具的设计使其在python中进行数据清洗和分析非常快捷,pandas经常是和其他数值计算工具,Numpy和Scipy,以及数据可视化工具比如matplotlib一起使用的。pandas支持大部分Numpy语言风格的数组计算。pandas的 常用的工具数据结构:Series和DataFrame,这两种数据结构为大多数提供了...原创 2019-10-21 17:03:29 · 453 阅读 · 0 评论 -
wordcloud绘制词云图
1.wordcloud的安装我直接推荐一种简单方式cmd命令行输入以下命令就可以了。pip install wordcloud2.wordcloud库介绍wordcloud库,可以说是python非常优秀的词云展示第三方库。词云以词语为基本单位更加直观和艺术的展示文本,下面给大家看一个示例:3.wordcloud的使用接下来,介绍下wordcloud的基本使用。wordcloud...原创 2019-05-27 18:05:51 · 4378 阅读 · 2 评论 -
numpy科学计算入门
为什么要用numpy?NumPy是一个开源的Python科学计算基础库,包含:• 一个强大的N维数组对象 ndarray • 广播功能函数 • 整合C/C++/Fortran代码的工具 • 线性代数、傅里叶变换、随机数生成等功能NumPy是SciPy、Pandas等数据处理或科学计算库的基础在numpy中我们会引入一种数组N维数组对象:ndarray,那么大家肯定在想Python已有列表类...原创 2019-06-02 18:01:34 · 263 阅读 · 0 评论 -
数据可视化概要
数据可视化数据如何呈现,如何突出它的重要性是我们在做数据挖掘中很重要的一个部分,而数据可视化让数据以可视化形式呈现时,格局、关联和其他会心时刻便浮现出来,让我们可以了解到数据背后的故事。常用的数据可视化工具如何制作一个既能准确的描述出数据的特点又能美观的图表,是数据可视化的最核心的内容,而对于数据可视化,我们不能只关注与实现的途径,我们更加关注的是它的结果。数据可视化没有最好的工具,我们的目...原创 2019-09-02 22:02:05 · 924 阅读 · 0 评论 -
python基于Matplotlib模块的绘图1
Matplotlib模块Matplotlib模块是python中绘图的第三方库,它模仿MATLAB中绘图,既适合交互式地进行制图,也可以作为绘图控件方便地嵌入GUI应用程序中。其中最主要的Matplotlib的pyplot子库提供了和MATLAB类似的绘图API,方便用户快速绘制2D图表,包括直方图、饼图、散点图等.在matplotlib.pyplot中,各种状态在函数调用中保留,以便跟踪当前...原创 2019-09-15 16:22:53 · 495 阅读 · 0 评论 -
python基于Matplotlib模块的绘图2
上一篇博客简单介绍了一些如何进行绘图,和如何设置各种图形格式,这篇博客主要讲解一下一些细节部分以及具体的实例操作。实例1有时我们需要绘制一个图形,需要指定它的大小并且将其输出保存下来,这个时候我们需要用到plt.figure函数和plt.savefig()函数,这两个函数前一个是生成一个指定大小的figure,单位是英寸,如果我们不生成,后面也会自动创建。plt.savefig()函数则是保存...原创 2019-09-16 16:14:51 · 157 阅读 · 2 评论 -
Python-matplotlib入门--基础图表的绘制(持续更新中)
通过前面几篇博客的大致内容,我们也能大致学会绘制图像,然后在我们做数据分析,统计分析的时候,我们需要用特定的图像来展示特定的数据,从而达到可视化的效果,让结果更加直观,这篇博客我将会详细介绍一下每一种图例。实例目录:1、线性图2、直方图3、条状图4、多序列条状图5、饼状图6、极坐标图7、散点图8、3D曲面首先需要区分清楚概念:直方图和条形图。条形图:条形图用长条形表示每一个类...原创 2019-09-16 20:50:06 · 575 阅读 · 3 评论 -
爬虫系列-urllib基本库的使用
学习爬虫,最基础便是模拟浏览器向服务器发出请求,请求需要来我们自己来构造?以及如何构造?具体怎么实现?服务器的响应和应答原理是什么样的?可能我们对这些一无所知,但python提供了功能齐全的类库来帮助我们完成这些请求。常用的HTTP库有urlllib.requests.trep等。而我们今天主要介绍的就是urllib库,这个库只需要我们传入相应的参数和相应的链接。首先我给出官方文档的链接,所有...原创 2019-09-18 07:57:12 · 296 阅读 · 3 评论 -
爬虫系列-request基本库的使用
上一篇博客中,我们了解了urllib的基本用法,但是它还是存在很多缺陷,比如处理网页验证和Cookies时,需要写通过类来实例化对象比较麻烦。为了更加方便地实现这些操作,就有了更为强大的库requests,对于它来说Cookies、登录验证、代理设置等操作都容易很多。...原创 2019-09-19 16:46:53 · 419 阅读 · 1 评论 -
python 神奇的第三方库 -Faker
在做数据处理和数据分析的时候,我们总是少不了测试数据,比如你想对设一个合理的数据清洗方案,但有的时候事先能够找一些样例做测试,但大多数的情况是我们自己构建一个测试数据。但对于我这个选择困难症的人,每次想名字或者定一些其他东西都是很纠结,前段时间在一篇微信推文上看到这个库,我觉得对我来说,受益匪浅。Faker这个库简单来说,就是造假,具体怎么造假,我这篇博客会详细的介绍。基本用法安装这个和其...原创 2019-09-21 12:00:18 · 1457 阅读 · 0 评论 -
爬虫系列-正则表达式
我们常常总是说在处理字符串一类数据的时候,总会提到一个正则表达式,但每次别人提到是又爱又恨的感受,它虽然是一个万能的办法,但是它相比其他几个,麻烦很多,一般都不会用它,但它一般都是我们最后的杀手锏,我们在写爬虫的时候也少不它。工具介绍首先提供一个在线测试正则表达式的网站,点开这个链接你就可以进去看,然后最近设计一个匹配的文本,然后就可以得出合理的结果。比如:这个网站对于刚学习的小白是很有用...原创 2019-09-23 16:49:33 · 562 阅读 · 2 评论 -
正则表达式-简单爬虫的实例
前面几篇博客主要介绍的是对于爬虫所需要的库以及相关知识点的介绍,这篇博客就是让我们练习一下真正的爬虫该怎么写。下面我主要讲两个实例,一个是b站新番的信息爬取,另一个是猫眼电影TOP100的相关信息爬取。b站新番排行榜的爬取首先我们需要request和re模块,我采用函数结构话来写爬虫,你们可以看看,首先我们找到我们需要爬取的详情页b站新番排行榜。我们需要爬取得信息有上面的新番排名,动漫名称...原创 2019-09-24 15:18:18 · 1713 阅读 · 0 评论 -
爬虫系列-解析库
概述在前面的实例中,我们采用正则表达式来提取相关的信息,但正则表达式过于复杂,容易写错,一旦写错就可能匹配不到我们想要的东西。所以这次博客我将介绍另一种提取信息的方法-解析库。对于网页的节点来说,它可以定义id、class或其他属性。而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么,在页面解析时,利用XPath或CSS选择器来提取某个节点,然后再调用...原创 2019-09-25 09:41:44 · 610 阅读 · 0 评论 -
数据存储
我们对网页进行请求后,然后利用解析器解析出数据,而做数据采集中很重要的一步就是数据存储,如何将爬取的数据保存下来,以及有哪几种途径,我这里大致的介绍一下。我们一般主要有四种,TXT文件,JSON文件,CSV文件以及数据库存储。文章目录TXT文件存储具体实例TXT文件存储将数据保存到TXT文本的操作非常简单,而且TXT文本几乎兼容任何平台,但是这有个缺点,那就是不利于检索。所以如果对检索和数据...原创 2019-10-08 11:11:56 · 205 阅读 · 0 评论 -
plotly入门(散点图和曲线图)
散点图散点图,顾名思义就是由一些散乱的点组成的图表,这些点在哪个位置,是由其X值和Y值确定的。所以也叫做XY散点图。特点是能直观表现出影响因素和预测对象之间的总体关系趋势。优点是能通过直观醒目的图形方式反映变量间关系的变化形态,以便决定用何种数学表达方式来模拟变量之间的关系。散点图不仅可传递变量间关系类型的信息,也能反映变量间关系的明确程度。今天我们来看一下Python中plotly包来...原创 2019-03-19 21:22:45 · 8975 阅读 · 0 评论 -
PEP8 编码规范
这里我就直接转载对python编程不是很熟的,可以看看下面的两个链接。PEP8 编码规范官网文档Python PEP8 编码规范中文版转载 2019-05-27 10:56:01 · 118 阅读 · 0 评论 -
rgb颜色查询对照
这个看了一下别人的博客,觉得写得很不错,就直接转载,有兴趣的可以看一下。https://blog.csdn.net/u010997144/article/details/52084386转载 2019-05-27 10:50:59 · 475 阅读 · 0 评论 -
python3:Tkinter——简单的窗口视窗
这个我直接转载几篇介绍的比较详细的博客,大家可以看看。python3:Tkinter——简单的窗口视窗窗口视窗Tkinter - 莫烦PythonPython tkinter 学习实践Python GUI之tkinter窗口视窗教程补充...转载 2019-05-27 10:47:40 · 586 阅读 · 0 评论 -
python内置函数功能汇总
python内置函数介绍内置函数介绍官网内置函数介绍常用内置函数abs(x) 返回一个数的绝对值。实参可以是整数或浮点数。如果实参是一个复数,返回它的模。abs(3)#结果还是3all(iterable)如果 iterable 的所有元素为真(或迭代器为空),返回 True 。def all(iterable): for element in iterable:...原创 2019-03-12 22:01:34 · 179 阅读 · 0 评论 -
python math标准库的使用
math— 数学函数(第三方标准库)作用:提供函数完成特殊的数学运算。调用方法import math1.两个常数e和piimport math print(math.pi)print ( math.e)这两个常数的输入必须调用math这个第三方标准库,直接不能使用。2.各种函数介绍这个网址上对大部分math 库中的函数进行了总结和介绍。如果想了解更多的可以去Python官网...原创 2019-03-12 21:21:27 · 7078 阅读 · 0 评论 -
强大的python绘图包plotly包
import plotly as pyfrom plotly.graph_objs import Scatter, Layout, Datatrace0 = Scatter( x = [1,2,3,4], y =[10,15,13,17])trace1 = Scatter( x =[1,2,3,4], y =[16,5,11,9])data =Data([...原创 2019-03-17 11:07:30 · 6231 阅读 · 3 评论 -
python字符串详解
python字符串详解字符串字符串或串(String)是由数字、字母、下划线组成的一串字符。一般记为 s=“a1a2···an”(n>=0)。它是编程语言中表示文本的数据类型。 通常以串的整体作为操作对象,如:在串中查找某个子串、求取一个子串、在串的某个位置上插入一个子串以及删除一个子串等。两个字符串相等的充要条件是:长度相等,并且各个对应位置上的字符都相等。属于python基本数据类...原创 2019-03-19 22:25:20 · 407 阅读 · 0 评论 -
微信公众号信息爬取
微信公众号信息爬取微信公众号文章信息爬取利用的是搜狗的微信文章搜索,通过搜索页面的结合找对应关键词的文章https://weixin.sogou.com/代码的大致介绍考虑到访问频繁容易封ip 这里采用了阿布云的IP,有需求的也可以看一下https://www.abuyun.com/http-proxy/dyn-manual.html我的代码采用的是从数据库读入关键词和对应的id...原创 2019-03-11 12:41:22 · 866 阅读 · 0 评论 -
Scrapy框架爬虫和百度帖吧评论的爬取
scrapy 框架基本知识scrapy安装命令pip install scrapy或者用conda命令安装,个人感觉conda命令安装更方便,因为用pip安装一般会需要下载其他包并且要自己设置,而conda命令可以直接安装,更加方便conda install scrapy下面命令都是在cmd窗口下面cd到文件路径开始的,自己在指定文件路径创建scrapy文件,便于管理scrap...原创 2019-03-04 18:28:02 · 3233 阅读 · 3 评论 -
微博自动点赞和转发
简单的微博自动点赞和转发selenium包的简单使用首先安装selenium包pip install selenium或者用conda命令安装conda install selenium在正常使用selenium包的时候要配置电脑相应的浏览器webdriver软件,找到自己电脑上面的相对应的webdriver版本才能正常运行代码,我下面的代码是基于谷歌浏览器所配置,安装好web...原创 2019-03-04 12:09:41 · 5271 阅读 · 1 评论 -
Jupyter Notebook与 Markdown知识点汇总
jupyter Notebook 快捷键及用法jupyter notebook介绍参考链接:https://www.cnblogs.com/nxld/p/6566380.htmlJupyter Notebook(此前被称为 IPython notebook)是一个交互式代码编写环境,本质上是一个Web应用程序,便于创建和共享程序文档,支持实时代码,数学方程,可视化和markdown。常用于数...原创 2019-03-06 09:19:22 · 885 阅读 · 0 评论 -
python列表的用法
列表序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字 - 它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。Python有6个序列的内置类型,但最常见的是列表和元组。列表是最常用的Python数据类型,它可以作为一个方括号内的逗号分隔值出现。列表的数据项不需要具有相同的类型,可以是字符串,可以是数字等等,列表可以嵌套。创建列表list3 =[]llist1...原创 2019-03-26 23:00:33 · 893 阅读 · 0 评论 -
python 函数进阶笔记
函数的参数传递1.必选参数必选参数也叫位置参数,定义:就是在给函数传参数时,按照顺序,依次传值。举一个简单例子def sum(a,b): return a+bsum(2,3)函数sum(a,b)中有两个参数,a和b,这两个参数都是位置参数,调用的时候,传入的两个值按照顺序,依次赋值给a和b。2.默认参数定义:就是在写函数的时候直接给参数传默认的值,调用的时候,默认参...原创 2019-04-10 22:55:53 · 262 阅读 · 0 评论 -
python集合的用法
集合Python 还包含了一个数据类型 —— set (集合)。集合是一个无序不重复元素的集。基本功能包括关系测试和消除重复元素。集合对象还支持 union(联合),intersection(交),difference(差)和 sysmmetric difference(对称差集)等数学运算。集合用大括号表示。集合的创建1.set() 函数可以用来创建集合 x = set('spam')...原创 2019-03-28 11:16:37 · 190 阅读 · 0 评论 -
python逻辑回归识别猫(持续更新中)
逻辑回归简单来说, 逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某用户购买某商品的可能性,某病人患有某种疾病的可能性,以及某广告被用户点击的可能性等。 注意,这里用的是“可能性”,而非数学上的“概率”,logisitc回归的结果并非数学定义中的概率值,不可以直接当做概率值来用。该结果往往用于和其他特征值加...原创 2019-05-15 09:39:07 · 2132 阅读 · 3 评论 -
python面向对象编程
面向对象编程概述面向对象编程(oop),是一种编程方式,这种编程方式需要使用“对象”来实现。这样听起来可能不懂,我借助知乎上面一个例子说明一下。面向对象是相对于面向过程的,比如你要充话费,你会想,可以下个支付宝,然后绑定银行卡,然后在淘宝上买卡,自己冲,这种种过程。但是对于你女朋友就不一样了,她是面向“对象”的,她会想,谁会充话费呢?当然是你了,她就给你电话,然后你把之前的做了一遍,然后她收到...原创 2019-05-06 17:06:42 · 173 阅读 · 0 评论 -
python文件操作
os库和常用命令在我们要对文件进行操作之前,必须先了解os标准库,文件操作的基础的是建立在操作系统上面完成的,现在操作系统很多都不会让普通的程序直接操作磁盘。我们的python也是一样的。而python对文件操作很多要依赖os库。os库调用方法import os然后我们需要熟悉几个os库常用的命令。os.listdir() 列出当前目录下的所有文件和文件夹(包括被隐藏的)os.sys...原创 2019-05-05 19:05:01 · 714 阅读 · 0 评论 -
python 模块与包
模块与包是任何大型程序的核心,就连Python安装程序本身也是一个包。本章重点涉及有关模块和包的常用编程技术,例如如何组织包、把大型模块分割成多个文件、创建命名空间包。同时,也给出了让你自定义导入语句的秘籍。模块模块简介模块是一个包含Python定义和语句的文件。文件名就是模块名后跟文件后缀 .py 在一个模块内部,模块名(作为一个字符串)可以通过全局变量 name 的值获得。比如你可以创...原创 2019-04-27 23:20:55 · 216 阅读 · 0 评论 -
python爬虫个人总结篇1
1.python中文转换url编码有很多时候,我们需要爬取搜索引擎,当你输入关键词后,形成了一个特定的网址,比如https://search.sina.com.cn/?q=%BA%FE%B1%B1%BE%AD%BC%C3%D1%A7%D4%BA&c=news&from=index,但是我输入的关键词是湖北经济学院,但其中出现一串莫名其妙的%BA%FE%B1%B1%BE%AD%BC...原创 2019-04-17 23:38:55 · 3305 阅读 · 1 评论