- 博客(12)
- 收藏
- 关注
原创 pandas
''' 【课程2.14】 数值计算和统计基础 常用数学、统计方法 ''' # 基本参数:axis、skipna import pandas as pd import numpy as np df=pd.DataFrame({ 'key1':[4,5,3,np.nan,2], 'key2':[1,2,np.nan,3,5], 'key3':...
2019-05-27 14:21:06 223
原创 datetime基础
''' 【课程2.8】 时间模块:datetime datetime模块,主要掌握:datetime.date(), datetime.datetime(), datetime.timedelta() 日期解析方法:parser.parse ''' # datatime.date :date 对象 import datetime today=datetime.date.today() ...
2019-05-25 09:43:24 249
原创 pandas_DataFram基础
''' 【课程2.5】 Pandas数据结构Dataframe:基本概念及创建 "二维数组"Dataframe:是一个表格型的数据结构,包含一组有序的列,其列的值类型可以是数值、字符串、布尔值等。 Dataframe中的数据以一个或多个二维块存放,不是列表、字典或一维数组结构。 ''' import pandas as pd import numpy as np # Datafrom ...
2019-05-24 14:50:02 381
原创 pandas_Series基础学习
''' 【课程2.2】 Pandas数据结构Series:基本概念及创建 "一维数组"Serise ''' import numpy as np import pandas as pd # 基本概念 Series # Series s=pd.Series(np.random.rand(5)) print(s) s=pd.Series(np.array([1,2,3,5,4])) prin...
2019-05-24 14:48:09 273
原创 python执行shell脚本创建用户及相关操作
用户发送请求,返回帐号和密码 ###利用框架flask 整体思路: # 目的:实现简单的登录的逻辑 # 1需要get和post请求方式 需要判断请求方式 # 2获取参数 # 3执行shell # 4如果判断都没问题,就返回结果 导包 ... 给模版传递消息 用flash --需要对内容加密,因此需要设置 secret_key , 做加密消息的混淆 app = Flask(__name__) ...
2019-04-09 18:09:04 1416 1
原创 1-7 bs4入门
xpath 模糊查询 //div[contais(@id," <...> ")] 取下一个节点(平级关系) following-sibling::* #bs4 用选择器查找 # 1.转类型 # 默认bs4会调用系统中lxml的解析库。所以会有较高提示,主动设置解析库 soup = BeautifulSoup(html_doc, features="lxml") #格式化输出 ...
2019-03-29 21:38:28 214
原创 1-6 网页解析
1.拆分字符串 split() 2.匹配中文 范围:\u4e00-\u9fa5 [\u4e00-\u9fa5]+ #+至少出现一次 ##百度新闻 正则 import re import requests url = " ... " headers = { ... } res = requests.get(url,headers=headers) html = res.text.dec...
2019-03-29 21:37:26 135
原创 1-5 爬虫入门
内网需要认证 auth = (user, pwd) reponse = request.get(url, auth=auth) proxy url = "http://www.baidu.com" headers = { ... } # 添加代理 proxy = {'http': '<ip>:<端口>'} response = requests.get(urlurl,he...
2019-03-29 21:36:41 143
原创 1-4 添加cookie的方式
#cookie ##第一种方式 手动复制抓包的cookie,放在request对象的请求头里 headers = { "User-Agent": UserAgent().chrome, "cookie": " ... " } ##第二种方式 cookiejar自动保存cookie 后台 根据你发送请求方式来判断 你是get请求(登录页面),如果是post请求(结果页面) #登录...
2019-03-29 21:35:38 577
原创 1-3 代理格式以及auth认证
mac电脑默认解码方式是utf-8 windows默认解码方式是gbk #付费代理 ###付费代理发送 1.用户名密码(带着) 通过验证的处理器来发送 第一种方式付费代理方式 #代理ip proxy = { "http": "<username>:<pwd>@192.168.0.2:8080" } #2.代理的处理器 handler = urllib.request.P...
2019-03-29 21:34:51 481
原创 1-2动态UA以及代理IP
import urllib.request import urllib.parse import string def get_params(): url = "http://www.baidu.com/s?w" params = { "wd": "中文", "key":"zhang", "value":"san" } #urlencode 可以将字典直接拼接到原来的u...
2019-03-29 21:33:22 294
原创 爬虫 入门1-1
#入门 爬虫分类 1.通用爬虫 2.聚焦爬虫 增量式 deep 深度爬虫 动态数据 js代码,加密js robots:是否允许其他爬虫(通用爬虫)爬取某些内容 聚焦爬虫不遵守 robots 爬虫和反扒:资源对等 胜利的永远是爬虫 ###爬虫的工作原理: 1.确认抓取目标的url是哪一个(找)* 2.使用python代码发送请求,获取数据(java、go) 3.解析获取到的数据(精确数据)* 找...
2019-03-28 17:05:09 170
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人