目录
1Python
1.1quantile数据排位点
rank=[0,0.4,0.6,0.8,1]
reault=mdata['列a'].quantile(rank)
q=0.6
x=mdata['列a'].quantile([q])[q]#获取第60%的值
1.2matplotlib显示中文和负号
matplotlib.rcParams['font.sans-serif'] = ['KaiTi']
matplotlib.rcParams['font.serif'] = ['KaiTi']
plt.rcParams['axes.unicode_minus']=False
1.3pandas数据筛选
data.drop(columns=['日期1','日期2','粉丝数1','粉丝数2'],axis=1,inplace=True)#删除某列
data['20s视频报价']=data['20s视频报价'].fillna('null')#填充空值
print(data[data['20s视频报价'].isin(['null'])])
df=data[data['性别'].isin(['保密'])|data['性别'].isin(['男生'])]# 字符的话要加[]
df=data[data['性别'].isin(['保密'])]#筛选性别是保密的行
df1=data[~data['性别'].isin(['保密'])]#筛选性别不是保密的行
#每一列都不空
for cname in mdata.columns:
mdata=mdata[mdata[cname].notna()]
1.4pandas独热编码
data=data.join(pd.get_dummies(data['性别'],prefix='性别'))#将性别处理成独热编码 并加入到 dataframe中
mdata.drop(columns='性别',axis=1,inplace=True)#删掉原来的列
1.5pandas描述性
print(data.info())
print(data.describe())
1.6计算回归系数
S_xy=0
S_xx=0
S_yy=0
X_mean=np.mean(X)
Y_mean=np.mean(Y)
#计算回归系数
for i in range(len(X)):
S_xy+=(X[i]-X_mean)*(Y[i]-Y_mean)
S_xx+=pow(X[i]-X_mean,2)
S_yy+=pow(Y[i]-Y_mean,2)
b1=S_xy/S_xx
1.7判断某str是否json类型
#判断某str是否json类型
def is_json(myjson):
try:
json_object = json.loads(myjson)
except ValueError as e:
return False
return True
1.8soup = BeautifulSoup(html,‘html.parser’)
soup.find_all('div',class_='V_list_a')#找所有
v.find('a')['href']#获取 href的值
v.find('h3',class_='V_autocut_2l').string#下图
v.find('div',class_='V_box_col').get_text()#下图
1.9正则表达式AXXB
str='A哈哈哈B'
re.findall(r'A(.+?)B',str)
正则表达式也要注意需要转义 ‘\\‘代表’\’
1.10日期加1天
date1+=datetime.timedelta(days = 7)#date1加1天
(udate-vdate).days#两个日期差了几天
2爬虫
2.1设置cookie
cookie=''
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:21.0) Gecko/20100101 Firefox/21.0',
'Cookie': cookie
}
r=requests.get(url, headers=headers,timeout=30)
2.2随机选择ip
def get_random_ip(ip_list):
proxy_list = []
for ip in ip_list:
proxy_list.append('http://' + ip)
proxy_ip = random.choice(proxy_list)
proxies = {'http': proxy_ip}
return proxies
r = requests.get(url, headers=headers,timeout=30,proxies=get_random_ip(ip_list))