PythonPlanet
以实战项目为例,一同走进Python数据分析的世界。
海林Lin
从事Fintech金融结算、数据分析,进击中的奶爸。关注数据分析方面实用技能,包括Excel、VBA、Python···
知乎账号https://www.zhihu.com/people/lin-hai-36-93
展开
-
【PythonPlanet】数据清洗-空值转换
原数据中空值并没有留空,而是用“\“,”-“,”无“等字符标注,有什么好办法可以处理?创建原始数据import pandas as pddata = [[100], ['/'], ['无'], [99]]columns = ['成绩']df = pd.DataFrame(data = data, columns = columns)df转换空值df['新成绩'] = pd.to_numeric(df.成绩.astype(str).str.replace(',', ''), er原创 2021-09-20 10:12:46 · 231 阅读 · 0 评论 -
【PythonPlanet】数据可视化_词云展示
今天做一个数据可视化的项目。我们经常需要对分析的数据提取常用词,做词晕展示。比如一些互联网公司会抓取用户的画像,或者每日讨论话题的关键词,形成词云并进行展示。再或者,假如你喜欢某个歌手,想了解这个歌手创作的歌曲中经常用到哪些词语,词云就是个很好的工具。最后,只需要将词云生成一张图片就可以直观地看到结果。在今天的项目里有3个目标需要掌握:掌握词云分析工具,并进行可视化呈现;掌握Python爬虫,对网页的数据进行爬取;掌握XPath工具,分析提取想要的元素。制作歌词词云假如我们现在要给毛不易的原创 2020-10-15 16:23:46 · 577 阅读 · 0 评论 -
【PythonPlanet】爬虫_设置随机的UserAgent
为了避免因为使用同一头部信息导致网站服务器拒绝你的请求,可以使用fake-useragent库实现每次请求带不同的http头部信息。代码如下:# 先在终端安装第三方库,pip install fake-useragentfrom fake_useragent import UserAgentua = UserAgent(verify_ssl = False)# 模拟不同的浏览器print(f'Chrome浏览器:{ua.chrome}')# print(ua.safari)# print(原创 2020-09-07 17:31:42 · 123 阅读 · 0 评论 -
【PythonPlanet】爬虫_协程和队列
前言当我们想要爬取的是成千上万条的数据,那么就会遇到一个问题:因为程序是一行一行依次执行的缘故,要等待很久,我们才能拿到想要的数据。既然一个爬虫爬取大量数据要爬很久,那我们能不能让多个爬虫一起爬取?这样无疑能提高爬取的效率,就像一个人干不完的活儿,组个团队一起干,活一下被干完了。这是一个很好的思路——让多个爬虫帮我们干活。具体怎么用Python实现这事呢?我们可以用协程和队列。代码示例用协程和队列爬取搜狗、新浪、天猫等8个网站。from gevent import monkey# 从ge.原创 2020-09-04 10:27:53 · 251 阅读 · 0 评论 -
【PythonPlanet】函数_闭包
闭包和嵌套函数类似,不同的是,这里外部函数返回的是一个函数,而不是一个具体的值。返回的函数通常赋予一个变量,这个变量可以在后面被继续执行调用。Talk is cheap, show me the code. 比如,我们想计算一个数的 n 次幂,用闭包可以写成下面的代码:def nth_power(exponent): def exponent_of(base): return base ** exponent return exponent_of # 返回值是exponent_of函数sq.原创 2020-08-09 10:29:35 · 211 阅读 · 0 评论 -
【PythonPlanet】爬虫_电影
豆瓣电影TOP250import requestsfrom bs4 import BeautifulSoupheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}list_all = []for n in range(11): # 获取数据 url_page =原创 2020-08-05 15:24:39 · 138 阅读 · 0 评论 -
【PythonPlanet】爬虫_菜谱
# 引用requests库import requests# 引用BeautifulSoup库from bs4 import BeautifulSoupheaders = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}# 获取数据res_foods = requests.get('http:原创 2020-08-05 15:18:39 · 131 阅读 · 0 评论 -
【PythonPlanet】流动图书馆项目
Python基础项目_流动图书馆class Book: def __init__(self, name, author, comment, state = 0): self.name = name self.author = author self.comment = comment self.state = state def __str__(self): status = '未借出'原创 2020-07-10 09:27:43 · 298 阅读 · 0 评论 -
【PythonPlanet】数据清洗原则:完全合一
拿做饭打个比方,对于很多人来说,热油下锅、掌勺翻炒一定是做饭中最过瘾的环节,但实际上炒菜这个过程只占做饭时间的20%,剩下80%的时间都是在做准备,比如买菜、择菜、洗菜等等。原创 2020-05-26 17:59:27 · 1548 阅读 · 0 评论 -
【PythonPlanet】Python科学计算:Pandas
今天要介绍的是Python中一个非常常用的工具Pandas。在数据分析工作中,Pandas的使用频率是很高的,一方面是因为Pandas提供的基础数据结构DataFrame与json的契合度很高,转换起来很方便。另一方面,如果我们日常的数据清理工作不是很复杂的话,通常用几句Pandas代码就可以对数据进行规整。Pandas可以说是基于NumPy构建的含有更高级数据结构和分析能力的工具包。在NumPy中数据结构是围绕ndarray展开的,那么在Pandas中的核心数据结构是什么呢?隆重有请Series和原创 2020-05-20 11:08:43 · 425 阅读 · 0 评论 -
【PythonPlanet】二手房产成交数据分析
一、项目概况该项目是使用Python对北京链家二手房经纪人成交数据进行分析的一个综合实例,包括pandas/numpy/matplotlib绘图的应用,涉及到数据读取、清洗、离散化等处理,使用了分组分析、假设验证分析和相关性分析等分析方法。分析目标:分析北京二手房成交价格分布寻找每个版块成交总金额超过一亿的经纪人分析成交量超过一亿的经纪人相关因素二、数据概况数据涵盖2011年-2...原创 2020-05-01 16:31:37 · 634 阅读 · 0 评论