![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
python
cat__hadoop
0.0
展开
-
Python基础
# coding=gbkfrom pip._vendor.pyparsing import Eachmovies = ["The Holy Grail","The Life of Brain","The Meaning of Life"]print(movies[0])print(movies)movies.pop()print(movies)movies.append("The app原创 2017-08-11 23:16:37 · 272 阅读 · 0 评论 -
Python高阶函数
#coding: gbk'''Created on 2017年8月13日@author: Administrator'''from builtins import strfrom _functools import reducefrom _ast import Strfrom _sre import getlowerfrom _overlapped import NULLfrom原创 2017-08-13 12:50:05 · 365 阅读 · 0 评论 -
Python爬取虎扑步行街,爆照区中的照片
使用的是Python3+reqeusts 源码如下#encoding:gbkimport requestsimport reimport timedef get_pages(url):#拼凑每一页的url pages = [] for i in range(1,50,1):#爬取第1到50页的帖子 new_url=url+'-'+str(i)原创 2017-08-19 17:59:59 · 1820 阅读 · 1 评论 -
python爬取拉勾网数据保存到mysql数据库
环境:python3 相关包:requests , json , pymysql 思路:1.通过chrome F12找到拉钩请求接口,分析request的各项参数 2.模拟浏览器请求拉钩接口 3.默认返回的json不是标准格式 , 对返回的json数据进行处理转换为标准格式 4.利用pymysql模块进行db操作#coding:utf-8import random原创 2017-10-05 10:47:32 · 2041 阅读 · 1 评论 -
Spark中DataFrame与Pandas中DataFrame的区别
出处:http://www.lining0806.com/spark与pandas中dataframe对比/ Pandas Spark 工作方式 单机single machine tool,没有并行机制parallelism 不支持Hadoop,处理大量数据有瓶颈 分布式并行计算框架,内建并行机制parallelism,所有的数据和操作自动并...转载 2018-04-20 15:36:26 · 2301 阅读 · 1 评论