钛媒体的抓取

import requests import re,json,pymysql ss=0 headers = { “User-Agent”: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko...

2018-12-28 19:09:41

阅读数 41

评论数 0

滚动资讯的爬取

import requests import time,json,re,pymysql from lxml import etree headers = { “User-Agent”: ‘Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/53...

2018-12-28 19:09:01

阅读数 4953

评论数 0

新浪数据抓取

import requests import re,json,pymysql,time headers = { “Accept”: “application/json, text/javascript, /; q=0.01”, “Accept-Encoding”: “gzip, deflate, ...

2018-12-28 19:07:49

阅读数 96

评论数 0

快科技的抓取

import requests import time,json,re,pymysql from lxml import etree article_id_list=[608862] def ID_last(article_id_list): time_now = int((time.time()...

2018-12-28 19:06:39

阅读数 69

评论数 0

凤凰网的抓取

import requests import re,json,pymysql,time #获取页码ID article_id_list=[ “http://shankapi.ifeng.com/shanklist//getColumnInfo//default/642951467249539957...

2018-12-28 19:06:03

阅读数 72

评论数 0

360快传号的爬取

URL=’’‘http://m.news.so.com/transcoding?url=http%3A%2F%2Fzm.news.so.com%2F86ca013a39d30779474f8fee68415ae0&check=396e04dcaf3ef4a5 http://...

2018-12-28 19:02:20

阅读数 237

评论数 0

今日头条的爬取

import requests,json import pymysql m=’’‘嫖娼 与其发生性关系 勾引 三妻四妾 色情交易 涉黄 发生关系 女儿发生性关系 出轨的女人 站街女 红杏出墙 援助交际 一夫多妻 偷过情 猥亵 性病 一夫一妻制 强暴 亲热 嫁一夫 通奸 性经历 性交易 性伴侣 父女...

2018-12-28 18:59:23

阅读数 22

评论数 0

分词加关键词提取

import numpy as np import pandas as pd import jieba #读取文件 news_all=pd.read_excel(r"",names=[“title”,“url”,“kind”]) new_all=news_all...

2018-12-05 05:05:58

阅读数 27

评论数 0

测试使用

测试使用的url 是 url= httpbin.org/get 返回的结果是下面: { "args": {}, "headers": { "Accept": &am...

2018-08-30 21:16:45

阅读数 30

评论数 0

运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用

数据的流程 1.scrapy 初始的内容是添加在spiders内部的 他的初始值是通过两种方式获取的 GET :scrapy的默认方式 start_urls=”xxx” POST :注释掉start_urls 添加start_requests() 函数 2.spiders 把初始值传递给sc...

2018-08-30 10:50:04

阅读数 75

评论数 0

用selenium 进行加载

#导入包 from selenium import webdriver 不打开浏览器加载页面的的内容 tt=webdriver.ChromeOptions() tt.add_argument(‘–headless’) 打开浏览器 driver=webdriver.Chrome(...

2018-08-25 21:29:09

阅读数 54

评论数 0

selenium 带验证码的自动登录

说明:本页并不是爬取数据 只是用selenium 进行网站自动登录(有验证码) 并获取一个网页所有的信息 from selenium import webdriver import requests from lxml import etree import base64 url=’h...

2018-08-25 21:04:01

阅读数 218

评论数 0

用selenium 进行自动登录和首页信息和账号页

说明:本页并不是爬取数据 只是用selenium 进行网站自动登录(有验证码) 并获取一个网页所有的信息 from selenium import webdriver url=’https://accounts.douban.com/login?alias=&...

2018-08-25 18:58:25

阅读数 233

评论数 0

西刺代理用多进程爬取

运用多进程检测西刺代理中免费代理中的可用代理 import requests from lxml import etree def daili(queue): #爬取5页代理 for s in range(1,5): url = ‘http://www...

2018-08-24 19:49:31

阅读数 112

评论数 0

多进程批量下载图片

import requests,os,time,random from lxml import etree from urllib import request 判断系统中是否存在文件夹 若不存在则创建 if not os.path.exists(‘down’): os.mk...

2018-08-23 23:57:59

阅读数 97

评论数 0

线程池的三种使用方法

import threadpool import time def sayhello (a): print(“hello: “+a) time.sleep(2) def main(): global result seed=[“a”,”b”,”c”,”...

2018-08-23 23:56:21

阅读数 94

评论数 0

进程和线程 的简单书写代码和实现

导包 import multiprocessing,time 创建进程执行的函数 def tt(var): time.sleep(2) print(var) time.sleep(2) print(var) var=’这是进程’ 创建一个进...

2018-08-23 20:14:14

阅读数 45

评论数 0

妹子图片的全爬取

import requests,os,time,random from lxml import etree from urllib import request 判断系统中是否存在文件夹 若不存在则创建 if not os.path.exists(‘xiazai’): os....

2018-08-22 20:31:07

阅读数 162

评论数 0

进程和县城的区别

在理解进程和线程概念之前首选要对并发有一定的感性认识,如果服务器同一时间内只能服务于一个客户端,其他客户端都再那里傻等的话,可见其性能的低下估计会被客户骂出翔来,因此并发编程应运而生,并发是网络编程中必须考虑的问题。实现并发的方式有多种:比如多进程、多线程、IO多路复用。 多进程 进程是资源(...

2018-08-20 22:33:57

阅读数 84

评论数 0

电影url 批两下载的思路和代码

import requests,re from zhouliu.class_tt import class_tt 实例化一个添加数据到数据库的类 dytt_mysql=class_tt() m=0 for i in range(1,5): url=’http://www.d...

2018-08-20 08:27:50

阅读数 106

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭