自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 爬虫练习

58# -*- coding: utf-8 -*-import scrapyclass Bj58Spider(scrapy.Spider): name = 'bj58' allowed_domains = ['bj.58.com'] start_urls = ['http://bj.58.com/ershouche/?PGTID=0d100000-0000-...

2018-08-27 09:40:05 231

原创 链家BeautifulSoup4爬取房源信息

from bs4 import BeautifulSoupimport pymysqlimport requests# 数据库存储class Mysql_save(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',password='123456'...

2018-08-23 22:34:50 775

原创 多进程66代理测试

import requests,timeimport multiprocessingfrom lxml import etreedef get_proxy(queue): url = 'http://www.66ip.cn/areaindex_35/1.html' response = requests.get(url) # with open('66.html',...

2018-08-21 22:46:21 1031

原创 进程线程

在网上找的关于进程和线程的资料,做的总结 定义 进程是一个程序对某个数据集的执行过程,是分配资源的基本单位 线程是进程中的一个实体,是被系统独立调度和分派的基本单位 区别 从上面的定义可以看出一个是调度和分派的基本单位,一个是拥有资源的基本单位 线程不能够独立执行,必须依存在进程中 线程执行开销小,效率高,,但不利于资源的管理和保护;而进程正相反 进程具有独立的空间地址,较为安全...

2018-08-20 19:50:09 153

原创 我爱我家

import requestsimport pymysqlfrom lxml import etree# 把数据存入数据库class Mysql_db(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',password='123456',port=3...

2018-08-20 08:32:46 643

原创 Tencent招聘

使用xpathimport requestsimport pymysqlfrom lxml import etree# 把数据存入数据库class Mysql_db(object): def __init__(self): self.db = pymysql.connect(host='127.0.0.1',user='root',password='12...

2018-08-20 08:31:31 181

原创 今日头条街拍图片下载

获取街拍页面import requestsfrom beiying import tou# urlurl = 'http://www.toutiao.com/search_content/?offset=0&format=json&keyword=%E8%A1%97%E6%8B%8D&autoload=true&count=20&cur_tab=...

2018-08-16 22:32:02 243

原创 雪球爬取数据

爬取数据from urllib import requestimport json# urlurl = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id={}&count={}&category=111'def Snowball(page,...

2018-08-15 21:40:13 735

原创 爬虫知识点整理

正则#正则表达式import re#re.match 匹配正则line = 'hsh323243'# 1.以 h 开头math_res = re.match('h',line)if math_res: print('success')else: print('error')# 2. 以h开头后面跟着一个字符line = 'h21212444dd'# . 可以...

2018-08-15 21:27:09 457

原创 爬虫四:人人网cookie登录两种方法

第一种方法from tuozhan_all import sessionimport json# urlurl = 'http://www.renren.com/ajaxLogin/login?1=1&uniqueTimestamp=2018721556168'# formform = { 'email': '15824714946', 'icode': ''...

2018-08-14 21:28:07 450

原创 爬虫三:cookie post get封装

from urllib import request, parsefrom urllib.error import HTTPError, URLError# 保存cookiefrom http import cookiejarclass session(object): def __init__(self): cookie_object = cookiejar.C...

2018-08-14 21:22:07 135

原创 爬虫二:有道翻译

import time,random,jsonfrom func_all import post#md5加密函数def md5(need_str): import hashlib # 创建md5对象 md5_o = hashlib.md5() # 需要有bytes, 作为参数 sign_bytes = need_str.encode('utf-8')...

2018-08-14 20:55:40 105

原创 爬虫一:get和post函数封装

from urllib import request,parsefrom urllib.error import HTTPError,URLError# get请求函数def get(url,headers=None): return urlrequest(url,headers=headers)# post请求函数def post(url,form,headers=None...

2018-08-13 20:34:32 333

原创 问题一:session和cookie的区别,他们是什么?

cookie是浏览器存储用户的状态信息方式,然后在访问后端的时候将这部分信息带回到后端。 Session是在服务端保存的一个数据结构,用来跟踪用户的状态,这个数据可以保存在集群、数据库、文件中。 主要区别: 1,cookie数据存放在客户的浏览器上,session数据放在服务器上。 2,cookie安全性不如session。 3,单个cookie保存的数据不能超过4K,一般网站限制20个...

2018-08-13 20:30:17 108

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除