python
majiexiong
菜鸡游测~
展开
-
python爬虫实现有道翻译
import timeimport randomimport jsonfrom day1.all_urllib import postdef md5_my(need_str): import hashlib # 创建md5对象 md5_o = hashlib.md5() # 需要有bytes, 作为参数 # 由str, 转换成 bytes enc...原创 2018-08-14 21:32:59 · 253 阅读 · 0 评论 -
利用scrapy框架爬取糗事百科
qsbk.py 代码# -*- coding: utf-8 -*-import scrapyfrom ..items import QsbkItemclass QsbkSpider(scrapy.Spider): name = 'qsbk' allowed_domains = ['qiushibaike.com'] start_urls = ['https:...原创 2018-08-27 10:15:18 · 403 阅读 · 2 评论 -
利用scrapy爬取58同城租房信息
tc.py 代码# -*- coding: utf-8 -*-import scrapyfrom ..items import TcItemclass Tc58Spider(scrapy.Spider): name = 'tc' allowed_domains = ['bj.58.com'] start_urls = ['http://bj.58.com/ch...原创 2018-08-27 10:12:38 · 2541 阅读 · 0 评论 -
利用scrapy框架爬取网易新闻排行榜
wyxw.py中代码# -*- coding: utf-8 -*-import scrapyfrom ..items import WyxwItemclass WyxwSpider(scrapy.Spider): name = 'wyxw' allowed_domains = ['news.163.com'] start_urls = ['http://new...原创 2018-08-27 10:10:03 · 827 阅读 · 0 评论 -
利用scrapy框架爬取淘宝
taobao.py主爬取程序# -*- coding: utf-8 -*-import scrapyimport jsonimport refrom ..items import TaobaoItemclass TaobaoSpider(scrapy.Spider): name = 'taobao' allowed_domains = ['taobao.com']...原创 2018-08-27 10:05:11 · 2286 阅读 · 2 评论 -
scrapy框架基本设置
个人记录帖,方便于后面的代码运行,首先是scrapy中的setting.py# -*- coding: utf-8 -*-# Scrapy settings for mjx_project project## For simplicity, this file contains only settings considered important or# commonly us...原创 2018-08-27 09:59:41 · 556 阅读 · 0 评论 -
进程和线程的区别
线程:1、线程是操作系统中能够进行运算调度的最小单位,它被包含在进程当中,是进程的实际运作单位。2、一个线程是指进程中一个单一顺序的控制流,所有的线程在同一个进程中运行,共享相同的资源和空间,易于调度。线程一般是并发执行3、每条线程可以执行不同的任务进程:1、进程是程序的一次执行,每个进程都有自己的地址空间、内存、数据栈及其他辅助记录运行轨迹的数据。 线程和进程的区别:...原创 2018-08-22 21:02:52 · 209 阅读 · 0 评论 -
喜马拉雅音频爬取(仅供参考学习)
import requestsfrom lxml import etreefrom urllib import requestimport osheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029...原创 2018-08-22 19:08:35 · 5200 阅读 · 3 评论 -
selenium模拟浏览器登陆豆瓣(带验证码)
from selenium import webdriverimport timeimport requestsfrom lxml import etreeimport base64# 操作浏览器driver = webdriver.Chrome()url = 'https://accounts.douban.com/login?alias=&redir=https%3A...原创 2018-08-22 19:06:30 · 526 阅读 · 0 评论 -
雪球股票信息爬取存入json文件
from urllib import requestimport jsonbase_url = 'https://xueqiu.com/stock/quote_order.json?page={}&size=30&order=desc&exchange=CN&stockType=sha&column=symbol%2Cname%2Ccurrent%2...原创 2018-08-22 19:02:03 · 1800 阅读 · 0 评论 -
爬取boss直聘招聘信息
直接上主代码from bs4 import BeautifulSoupimport requestsimport ip_proxyfrom urllib import parseheaders = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like...原创 2018-08-22 18:57:27 · 1286 阅读 · 0 评论 -
python实现电影天堂种子磁力的爬取
import requests,redef getdetail(url): response = requests.get(url) #dytt的编码为gbk非utf-8 html = response.content.decode('gbk') # 电影详情页标题 movie_title_name = re.search('<h...原创 2018-08-19 15:57:13 · 22311 阅读 · 0 评论 -
python爬虫实现今日头条街拍爬取
import requestsimport reimport jsonimport osfrom urllib import requestheaders = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/6...原创 2018-08-16 21:10:25 · 741 阅读 · 0 评论 -
有大神告诉我为什么pymysql导入失败
import jsonimport requestsimport pymysqlurl = 'https://xueqiu.com/v4/statuses/public_timeline_by_category.json?since_id=-1&max_id=-1&count=10&category=111'headers = {'Cookie': 'ali...原创 2018-08-15 22:11:54 · 2125 阅读 · 0 评论 -
利用scrapy框架爬取图虫风景图
tuchong.py代码# -*- coding: utf-8 -*-import scrapyimport jsonimport refrom ..items import TuchongItemclass TuchongSpider(scrapy.Spider): name = 'tuchong' allowed_domains = ['tuchong.com...原创 2018-08-27 10:18:32 · 446 阅读 · 0 评论