自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 pandas

'''【课程2.14】 数值计算和统计基础常用数学、统计方法 '''# 基本参数:axis、skipnaimport pandas as pdimport numpy as npdf=pd.DataFrame({ 'key1':[4,5,3,np.nan,2], 'key2':[1,2,np.nan,3,5], 'key3':...

2019-05-27 14:21:06 229

原创 datetime基础

'''【课程2.8】 时间模块:datetimedatetime模块,主要掌握:datetime.date(), datetime.datetime(), datetime.timedelta()日期解析方法:parser.parse'''# datatime.date :date 对象import datetime today=datetime.date.today()...

2019-05-25 09:43:24 259

原创 pandas_DataFram基础

'''【课程2.5】 Pandas数据结构Dataframe:基本概念及创建"二维数组"Dataframe:是一个表格型的数据结构,包含一组有序的列,其列的值类型可以是数值、字符串、布尔值等。Dataframe中的数据以一个或多个二维块存放,不是列表、字典或一维数组结构。'''import pandas as pdimport numpy as np# Datafrom ...

2019-05-24 14:50:02 385

原创 pandas_Series基础学习

'''【课程2.2】 Pandas数据结构Series:基本概念及创建"一维数组"Serise'''import numpy as npimport pandas as pd# 基本概念 Series# Seriess=pd.Series(np.random.rand(5))print(s)s=pd.Series(np.array([1,2,3,5,4]))prin...

2019-05-24 14:48:09 280

原创 python执行shell脚本创建用户及相关操作

用户发送请求,返回帐号和密码###利用框架flask整体思路:# 目的:实现简单的登录的逻辑# 1需要get和post请求方式 需要判断请求方式# 2获取参数# 3执行shell# 4如果判断都没问题,就返回结果导包...给模版传递消息 用flash --需要对内容加密,因此需要设置 secret_key , 做加密消息的混淆app = Flask(__name__)...

2019-04-09 18:09:04 1435 1

原创 1-7 bs4入门

xpath 模糊查询//div[contais(@id," <...> ")]取下一个节点(平级关系)following-sibling::*#bs4用选择器查找# 1.转类型# 默认bs4会调用系统中lxml的解析库。所以会有较高提示,主动设置解析库soup = BeautifulSoup(html_doc, features="lxml")#格式化输出 ...

2019-03-29 21:38:28 225

原创 1-6 网页解析

1.拆分字符串split()2.匹配中文范围:\u4e00-\u9fa5 [\u4e00-\u9fa5]+ #+至少出现一次##百度新闻正则import reimport requestsurl = " ... "headers = { ... }res = requests.get(url,headers=headers)html = res.text.dec...

2019-03-29 21:37:26 139

原创 1-5 爬虫入门

内网需要认证auth = (user, pwd)reponse = request.get(url, auth=auth)proxyurl = "http://www.baidu.com"headers = { ... }# 添加代理proxy = {'http': '<ip>:<端口>'}response = requests.get(urlurl,he...

2019-03-29 21:36:41 154

原创 1-4 添加cookie的方式

#cookie##第一种方式手动复制抓包的cookie,放在request对象的请求头里headers = { "User-Agent": UserAgent().chrome, "cookie": " ... "}##第二种方式cookiejar自动保存cookie后台 根据你发送请求方式来判断 你是get请求(登录页面),如果是post请求(结果页面)#登录...

2019-03-29 21:35:38 599

原创 1-3 代理格式以及auth认证

mac电脑默认解码方式是utf-8windows默认解码方式是gbk#付费代理###付费代理发送1.用户名密码(带着)通过验证的处理器来发送第一种方式付费代理方式#代理ipproxy = { "http": "<username>:<pwd>@192.168.0.2:8080"}#2.代理的处理器handler = urllib.request.P...

2019-03-29 21:34:51 502

原创 1-2动态UA以及代理IP

import urllib.requestimport urllib.parseimport stringdef get_params(): url = "http://www.baidu.com/s?w" params = { "wd": "中文", "key":"zhang", "value":"san" } #urlencode 可以将字典直接拼接到原来的u...

2019-03-29 21:33:22 309

原创 爬虫 入门1-1

#入门爬虫分类1.通用爬虫2.聚焦爬虫增量式deep 深度爬虫动态数据 js代码,加密js robots:是否允许其他爬虫(通用爬虫)爬取某些内容聚焦爬虫不遵守 robots爬虫和反扒:资源对等 胜利的永远是爬虫###爬虫的工作原理:1.确认抓取目标的url是哪一个(找)*2.使用python代码发送请求,获取数据(java、go)3.解析获取到的数据(精确数据)*找...

2019-03-28 17:05:09 174

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除