- 博客(12)
- 收藏
- 关注
原创 pandas
'''【课程2.14】 数值计算和统计基础常用数学、统计方法 '''# 基本参数:axis、skipnaimport pandas as pdimport numpy as npdf=pd.DataFrame({ 'key1':[4,5,3,np.nan,2], 'key2':[1,2,np.nan,3,5], 'key3':...
2019-05-27 14:21:06
229
原创 datetime基础
'''【课程2.8】 时间模块:datetimedatetime模块,主要掌握:datetime.date(), datetime.datetime(), datetime.timedelta()日期解析方法:parser.parse'''# datatime.date :date 对象import datetime today=datetime.date.today()...
2019-05-25 09:43:24
259
原创 pandas_DataFram基础
'''【课程2.5】 Pandas数据结构Dataframe:基本概念及创建"二维数组"Dataframe:是一个表格型的数据结构,包含一组有序的列,其列的值类型可以是数值、字符串、布尔值等。Dataframe中的数据以一个或多个二维块存放,不是列表、字典或一维数组结构。'''import pandas as pdimport numpy as np# Datafrom ...
2019-05-24 14:50:02
385
原创 pandas_Series基础学习
'''【课程2.2】 Pandas数据结构Series:基本概念及创建"一维数组"Serise'''import numpy as npimport pandas as pd# 基本概念 Series# Seriess=pd.Series(np.random.rand(5))print(s)s=pd.Series(np.array([1,2,3,5,4]))prin...
2019-05-24 14:48:09
280
原创 python执行shell脚本创建用户及相关操作
用户发送请求,返回帐号和密码###利用框架flask整体思路:# 目的:实现简单的登录的逻辑# 1需要get和post请求方式 需要判断请求方式# 2获取参数# 3执行shell# 4如果判断都没问题,就返回结果导包...给模版传递消息 用flash --需要对内容加密,因此需要设置 secret_key , 做加密消息的混淆app = Flask(__name__)...
2019-04-09 18:09:04
1435
1
原创 1-7 bs4入门
xpath 模糊查询//div[contais(@id," <...> ")]取下一个节点(平级关系)following-sibling::*#bs4用选择器查找# 1.转类型# 默认bs4会调用系统中lxml的解析库。所以会有较高提示,主动设置解析库soup = BeautifulSoup(html_doc, features="lxml")#格式化输出 ...
2019-03-29 21:38:28
225
原创 1-6 网页解析
1.拆分字符串split()2.匹配中文范围:\u4e00-\u9fa5 [\u4e00-\u9fa5]+ #+至少出现一次##百度新闻正则import reimport requestsurl = " ... "headers = { ... }res = requests.get(url,headers=headers)html = res.text.dec...
2019-03-29 21:37:26
139
原创 1-5 爬虫入门
内网需要认证auth = (user, pwd)reponse = request.get(url, auth=auth)proxyurl = "http://www.baidu.com"headers = { ... }# 添加代理proxy = {'http': '<ip>:<端口>'}response = requests.get(urlurl,he...
2019-03-29 21:36:41
154
原创 1-4 添加cookie的方式
#cookie##第一种方式手动复制抓包的cookie,放在request对象的请求头里headers = { "User-Agent": UserAgent().chrome, "cookie": " ... "}##第二种方式cookiejar自动保存cookie后台 根据你发送请求方式来判断 你是get请求(登录页面),如果是post请求(结果页面)#登录...
2019-03-29 21:35:38
599
原创 1-3 代理格式以及auth认证
mac电脑默认解码方式是utf-8windows默认解码方式是gbk#付费代理###付费代理发送1.用户名密码(带着)通过验证的处理器来发送第一种方式付费代理方式#代理ipproxy = { "http": "<username>:<pwd>@192.168.0.2:8080"}#2.代理的处理器handler = urllib.request.P...
2019-03-29 21:34:51
502
原创 1-2动态UA以及代理IP
import urllib.requestimport urllib.parseimport stringdef get_params(): url = "http://www.baidu.com/s?w" params = { "wd": "中文", "key":"zhang", "value":"san" } #urlencode 可以将字典直接拼接到原来的u...
2019-03-29 21:33:22
309
原创 爬虫 入门1-1
#入门爬虫分类1.通用爬虫2.聚焦爬虫增量式deep 深度爬虫动态数据 js代码,加密js robots:是否允许其他爬虫(通用爬虫)爬取某些内容聚焦爬虫不遵守 robots爬虫和反扒:资源对等 胜利的永远是爬虫###爬虫的工作原理:1.确认抓取目标的url是哪一个(找)*2.使用python代码发送请求,获取数据(java、go)3.解析获取到的数据(精确数据)*找...
2019-03-28 17:05:09
174
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人