自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(13)
  • 收藏
  • 关注

原创 岭回归与lasso回归

a. 什么是岭回归和lasso回归?为什么要用岭回归和lasso回归?岭回归选参的一般原则是什么。 对OLS进行范数1正则化叫Lasso回归。 对OLS进行范数2正则化叫岭回归。   进行岭回归和Lasso回归的主要目的: 1.解决病态矩阵的过拟合和欠拟合问题。 2.消除多重共线性造成的行列式趋近于0,从而引起的大系数问题。 选参遵循原则如下: (1)在岭回归中设计矩阵X已经中心化...

2018-09-27 19:44:26 1580

原创 妹子图进程线程爬虫代码(python)

import requests from lxml import etree import os def download_img(img_url_referer_url): print("fuck, 你还来不来") (img_url, referer) = img_url_referer_url print('Downloading ......' + img_url...

2018-08-20 23:46:55 360

原创 进程vs线程

什么叫“多任务”呢? 简单地说,就是操作系统可以同时运行多个任务。 打个比方,你一边在用浏览器上网,一边在听MP3,一边在用Word赶作业,这就是多任务,至少同时有3个任务正在运行。还有很多任务悄悄地在后台同时运行着,只是桌面上没有显示而已。 现在,多核CPU已经非常普及了,但是,即使过去的单核CPU,也可以执行多任务。由于CPU执行代码都是顺序执行的,那么,单核CPU是怎么执行多任务的呢?...

2018-08-20 23:40:01 201

原创 正则表达式

# 正则表达式 我们到网站上爬取数据,需要知道什么样的数据是我们想要爬取的,什么样的数据是网页上不会变化的。 正则表达式通常被用来`检索、替换`那些符合某个`模式(规则)`的`文本`。 ### 模式介绍 |模式|描述| -------|--------| |^|匹配字符串的开头| |$|匹配字符串的末尾。| |.|匹配任意字符,除了换行符,当re.DOTALL标记被指定时,则可以匹配包括换...

2018-08-17 00:02:19 925

原创 Python 连接 MySQL

连接数据库 步骤 1.创建数据库对象 数据库对象 = pymysql.connect( '主机地址', '用户名', '密码', '库名', charset='utf8', port=3306 ) 数据库对象的方法:cursor()、commit()、rollback()、close() 2.创建游标对象 游标对象 = db.cursor() 3.游标对象方法: ...

2018-08-16 00:11:17 137

原创 baidufanyi

import json url = 'http://fanyi.baidu.com/sug' def translate(kw): form = { 'kw':kw } #字典转换成str #form_str = parse.urlencode(form) #print(form_str) #str转换成bytes #...

2018-08-16 00:07:40 559

原创 xueqiu_requests.py

import json import requests from mysql_my import mysql_conn # 因为不能访问, 所以我们加个头试试 headers = { #'Accept': '*/*', #'Accept-Encoding': 'gzip, deflate, br', #'Accept-Language': 'zh-CN,zh;q=0.9,...

2018-08-16 00:03:50 144

原创 proxy_urllib

from urllib import request proxy = {     'http': 'http://219.141.153.41:80' } url = 'http://www.baidu.com/s?wd=ip' # request.HTTPCookieProcessor(cookie) handler = request.ProxyHandler(proxy) # 生成 o...

2018-08-15 00:25:45 105

原创 有道翻译 获取

import time import random import json from Day1.tuozhan_all import post def md5_my(need_str):     import hashlib     # 创建md5对象     md5_o = hashlib.md5()     # 需要有bytes, 作为参数     # 由str, 转换成 bytes en...

2018-08-15 00:25:03 348

原创 人人网登陆获取

from Day1.tuozhan_all import post, get import json from urllib import request, parse # 保存cookie from http import cookiejar # 通过对象保存cookie cookie_object = cookiejar.CookieJar() # handler 对应着一个操作 handl...

2018-08-14 23:42:46 854

原创 HTTP

## HTTP 和 HTTPS 简介 HTTP协议是Hyper Text Transfer Protocol(超文本传输协议)的缩写,是用于从万维网(WWW:World Wide Web )服务器传输超文本到本地浏览器的传送协议。。 HTTP是一个基于TCP/IP通信协议来传递数据(HTML 文件, 图片文件, 查询结果等)。默认端口:80<br> HTTPS 即HTTP下加入SSL...

2018-08-13 22:34:20 91

原创 爬虫过程代码

from urllib import request,parse from urllib.error import HTTPError,URLError def get(url,headers=None): return urlrequests(url,headers=headers) def post(url,form,headers=None): return urlre...

2018-08-13 22:04:41 153

原创 Session与Cookie的区别与联系

一、Session的概念 Session 是存放在服务器端的,类似于Session结构来存放用户数据,当浏览器 第一次发送请求时,服务器自动生成了一个Session和一个Session ID用来唯一标识这个Session,并将其通过响应发送到浏览器。当浏览器第二次发送请求,会将前一次服务器响应中的Session ID放在请求中一并发送到服务器上,服务器从请求中提取出Session ID,并和保存...

2018-08-13 20:32:59 75

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除