张峰π_π
码龄7年
关注
提问 私信
  • 博客:147,858
    社区:457
    动态:79
    148,394
    总访问量
  • 43
    原创
  • 2,198,497
    排名
  • 166
    粉丝
  • 2
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2018-06-02
博客简介:

qq_42370313的博客

查看详细资料
个人成就
  • 获得238次点赞
  • 内容获得47次评论
  • 获得953次收藏
  • 代码片获得2,728次分享
创作历程
  • 2篇
    2021年
  • 44篇
    2019年
成就勋章
TA的专栏
  • 笔记
  • NLP
    1篇
  • 学习
    34篇
  • python
    44篇
  • 爬虫
    17篇
  • 数据可视化
    9篇
  • 深度学习
    2篇
  • 数据分析
    8篇
兴趣领域 设置
  • 大数据
    oraclesqlmysql数据仓库
  • 人工智能
    机器学习深度学习神经网络自然语言处理tensorflownlp数据分析
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

学Python爬虫,我推荐《python3网络爬虫开发实战(第二版)》

对于崔大的这本《python3网络爬虫开发实战(第二版)》,其实还得从大一下学期的时候参加老师的课题说起,当时老师的课题需要采集一些旅游网站的评论数据,对于当时的我一筹莫展。然后通过请教老师和查询资料了解到爬虫这个东西,当时刚好课程在学习Python,然后碰巧中用度娘以及知乎这些工具搜索发现了python网络爬虫开发,对于当时基础很差的我,然后就考虑买一本厚一点的基础的爬虫书籍,然后结合豆瓣知乎的评价就冲了《python3网络爬虫开发实战(第一版)》,然后因此也和爬虫结下了不解之缘。后续学习过程中发现第一版
原创
发布博客 2021.12.29 ·
1796 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

python实现API的调用

python实现API的调用以及数据接口的调用,常用的一些API参考示例。
原创
发布博客 2021.12.11 ·
47104 阅读 ·
95 点赞 ·
11 评论 ·
555 收藏

python实现文本翻译

在很多数据处理的时候,我们可能会面临一个问题-多语言的文本数据,比如我最近做的一个评论数据分析,我们发现这个数据有多种语言形式,这个时候我们需要对它进行统一化,方面后面的进行,不然可能会面临多语言分情况分析(比如做情感分析的时候,语言不同,它所使用的模型也不同),所以这篇博客也是为了那个问题解决所介绍的。下面我主要介绍几种方法:1.translate...
原创
发布博客 2019.11.25 ·
11485 阅读 ·
8 点赞 ·
3 评论 ·
54 收藏

scrapy爬取360美食图片

基本介绍上面有篇博客专门对scrapy入门爬取进行了一个简单介绍,而且实现了对新闻网站数据的爬取,这次我们将要爬取360上面的美食图片。我们将图片相关的信息保存在MYSQL和MongDB数据库中,首先我们需要安装好MYSQL和MongDB数据库,安装这一块大家可以参考网上的安装教程。需求分析首先我们需要了解我们爬取的目标网站:https://image.so.com/z?ch=food,打开...
原创
发布博客 2019.11.09 ·
781 阅读 ·
4 点赞 ·
0 评论 ·
3 收藏

pyecharts绘图

基本介绍pyecharts是一个基于百度开发的echarts的一个第三方库,它绘制的图像功能更强大。交互性比较强,在用作展示等方面是一个值得使用的第三方库。在了解这个第三方库之前我们了解一下Echarts.ECharts是一个免费的、功能强大的、可视化的一个库。它可以非常简单的往软件产品中添加直观的、动态的和高度可定制化的图表。它是一个全新的基于zrender的用纯JavaScript打造完...
原创
发布博客 2019.11.09 ·
5822 阅读 ·
5 点赞 ·
2 评论 ·
40 收藏

seaborn绘图包的使用

Seaborn概述Seaborn是基于matplotlib的Python数据可视化库,并与pandas数据结构紧密集成。它提供了一个高级界面,用于绘制引人入胜且内容丰富的统计图形。它相对matplotlib用起来很简单,只需要简单几行代码就能绘制出比较好的图。seaborn提供的一些功能面向数据集的API,用于检查多个变量之间的关系专门支持使用分类变量显示观察结果或汇总统计信息可视化单...
原创
发布博客 2019.10.28 ·
1586 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

scrapy框架入门

scrapy框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted’twɪstɪd异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,并且包含了各种中间件接口,可以灵活的完成各...
原创
发布博客 2019.10.24 ·
556 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

pandas 入门学习

概述pandas作为python的第三方库,它所包含的数据结构和数据处理工具的设计使其在python中进行数据清洗和分析非常快捷,pandas经常是和其他数值计算工具,Numpy和Scipy,以及数据可视化工具比如matplotlib一起使用的。pandas支持大部分Numpy语言风格的数组计算。pandas的 常用的工具数据结构:Series和DataFrame,这两种数据结构为大多数提供了...
原创
发布博客 2019.10.21 ·
886 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

数据存储

我们对网页进行请求后,然后利用解析器解析出数据,而做数据采集中很重要的一步就是数据存储,如何将爬取的数据保存下来,以及有哪几种途径,我这里大致的介绍一下。我们一般主要有四种,TXT文件,JSON文件,CSV文件以及数据库存储。文章目录TXT文件存储具体实例TXT文件存储将数据保存到TXT文本的操作非常简单,而且TXT文本几乎兼容任何平台,但是这有个缺点,那就是不利于检索。所以如果对检索和数据...
原创
发布博客 2019.10.08 ·
544 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

爬虫系列-解析库

概述在前面的实例中,我们采用正则表达式来提取相关的信息,但正则表达式过于复杂,容易写错,一旦写错就可能匹配不到我们想要的东西。所以这次博客我将介绍另一种提取信息的方法-解析库。对于网页的节点来说,它可以定义id、class或其他属性。而且节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么,在页面解析时,利用XPath或CSS选择器来提取某个节点,然后再调用...
原创
发布博客 2019.09.25 ·
1047 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

正则表达式-简单爬虫的实例

前面几篇博客主要介绍的是对于爬虫所需要的库以及相关知识点的介绍,这篇博客就是让我们练习一下真正的爬虫该怎么写。下面我主要讲两个实例,一个是b站新番的信息爬取,另一个是猫眼电影TOP100的相关信息爬取。b站新番排行榜的爬取首先我们需要request和re模块,我采用函数结构话来写爬虫,你们可以看看,首先我们找到我们需要爬取的详情页b站新番排行榜。我们需要爬取得信息有上面的新番排名,动漫名称...
原创
发布博客 2019.09.24 ·
1957 阅读 ·
3 点赞 ·
0 评论 ·
18 收藏

爬虫系列-正则表达式

我们常常总是说在处理字符串一类数据的时候,总会提到一个正则表达式,但每次别人提到是又爱又恨的感受,它虽然是一个万能的办法,但是它相比其他几个,麻烦很多,一般都不会用它,但它一般都是我们最后的杀手锏,我们在写爬虫的时候也少不它。工具介绍首先提供一个在线测试正则表达式的网站,点开这个链接你就可以进去看,然后最近设计一个匹配的文本,然后就可以得出合理的结果。比如:这个网站对于刚学习的小白是很有用...
原创
发布博客 2019.09.23 ·
599 阅读 ·
3 点赞 ·
2 评论 ·
5 收藏

python 神奇的第三方库 -Faker

在做数据处理和数据分析的时候,我们总是少不了测试数据,比如你想对设一个合理的数据清洗方案,但有的时候事先能够找一些样例做测试,但大多数的情况是我们自己构建一个测试数据。但对于我这个选择困难症的人,每次想名字或者定一些其他东西都是很纠结,前段时间在一篇微信推文上看到这个库,我觉得对我来说,受益匪浅。Faker这个库简单来说,就是造假,具体怎么造假,我这篇博客会详细的介绍。基本用法安装这个和其...
原创
发布博客 2019.09.21 ·
2048 阅读 ·
3 点赞 ·
0 评论 ·
8 收藏