Python爬虫
文章平均质量分 75
Fredreck1919
python基础牢固,熟悉Django、爬虫、数据分析,会用Mysql、MongoDb、Redis等数据库和HTML5相关前段基础。
展开
-
(68)-- 爬取糗百信息
# 爬取糗百信息import threadingfrom queue import Queueimport requestsfrom lxml import etreeimport time# 最大开启采集线程数(并发数)concurrent = 3# 解析并发数conparse = 3class Crawl(threading.Thread): def __init...原创 2018-04-08 16:05:49 · 382 阅读 · 0 评论 -
(78)--用框架爬取招聘信息
(78)--用scrapy框架简单爬取赶集网信息# main.pyfrom scrapy import cmdlinecmdline.execute('scrapy crawl spider_ganji'.split())# spider_ganji.py# -*- coding: utf-8 -*-import scrapyfrom ..items import WwwGanjiIte...原创 2018-04-19 15:33:25 · 1181 阅读 · 0 评论 -
(77)--用框架爬取博客园信息并保存到数据库
# 用框架爬取博客园信息并保存到数据库# cnlogs_itload.py# -*- coding: utf-8 -*-import scrapyimport refrom ..items import CnblogItem,CnblogItemLoaderfrom datetime import datetimefrom w3lib.html import remove_tagsf...原创 2018-04-12 19:31:38 · 406 阅读 · 0 评论 -
(67)-- 多线程爬取腾讯招聘并存入数据库
# 多线程爬取腾讯招聘职位信息并存入数据库 # mydb.pyimport pymysqlclass Mydb: def __init__(self): try: self.conn = pymysql.connect('127.0.0.1','root','123456','han',charset='utf8') se...原创 2018-04-04 16:40:38 · 317 阅读 · 0 评论 -
(76)--用框架爬取交友信息并保存到数据库
# 用框架爬取交友信息并保存到数据库# yuehui.py# -*- coding: utf-8 -*-import scrapyimport jsonimport mathfrom ..items import YuehuiItem,TrueHeartItemimport reclass YuehuiSpider(scrapy.Spider): name = 'yuehui...原创 2018-04-11 19:07:55 · 324 阅读 · 0 评论 -
(66)-- 多进程爬取腾讯招聘信息
# 用多进程爬取腾讯招聘的文本信息from multiprocessing import Poolimport requestsfrom bs4 import BeautifulSoupimport timebase_url = 'http://hr.tencent.com/position.php?start=%d'headers = { 'User-Agent' : '...原创 2018-04-04 11:13:42 · 2585 阅读 · 0 评论 -
(65)-- 爬取58交友信息
# 二级爬取58交友的名字、年龄、身高、学历、图片信息,并把这些信息保存到数据库中# 首先要在当前目录下建立一个58文件夹,然后通过Navicat连接到数据库# mydb.pyimport pymysqlclass Mydb: def __init__(self): try: self.conn = pymysql.connect('127.0....原创 2018-04-03 16:27:03 · 298 阅读 · 0 评论 -
(75)--用框架爬取腾讯招聘信息并保存到数据库
# 用框架爬取腾讯招聘信息并保存到数据库# main.pyfrom scrapy import cmdlinecmdline.execute('scrapy crawl tencent_new'.split())# tencent_new.py# -*- coding: utf-8 -*-import scrapyfrom urllib import request,parsefrom ...原创 2018-04-10 16:59:42 · 535 阅读 · 0 评论 -
(65)-- 爬取兄弟连老师信息
# 爬取兄弟连老师信息,先建一个teacher文件夹from bs4 import BeautifulSoupimport requestsfrom urllib import requestimport jsonbase_url = 'http://www.itxdl.cn/activity/teacher/teacher_lieibiao/'response = requests....原创 2018-04-03 11:53:59 · 265 阅读 · 0 评论 -
(74)--用框架爬取腾讯招聘首页
# 用框架爬取腾讯招聘首页# tencent.py# -*- coding: utf-8 -*-import scrapyfrom ..items import JobItemfrom datetime import datetimeclass TencentSpider(scrapy.Spider): name = 'tencent' allowed_domains =...原创 2018-04-10 14:55:30 · 329 阅读 · 0 评论 -
(63)-- 爬取兄弟连网页信息
# 爬取兄弟连网页信息,包括详细信息和图片import requestsfrom lxml import etreeimport jsonfrom urllib import requestdef getUrl(): base_url = 'http://www.itxdl.cn/html/php/phparticles/' response = requests.ge...原创 2018-04-02 19:11:06 · 238 阅读 · 0 评论 -
(73)--用框架爬取兄弟连老师信息
# 用框架爬取兄弟连老师姓名# xdl.py# -*- coding: utf-8 -*-import scrapyclass XdlSpider(scrapy.Spider): name = 'xdl' # allowed_domains = ['www.xdl.cn'] start_urls = ['http://www.itxdl.cn/activity/te...原创 2018-04-09 19:15:39 · 346 阅读 · 0 评论 -
(72)--爬取中执行JS代码
# 用JS代码自动运行程序from selenium import webdriverimport timechrome = webdriver.Chrome(executable_path=r'E:\Python\python爬虫\chromedriver.exe')base_url = 'https://image.baidu.com/search/index?ct=201326592&...原创 2018-04-09 11:57:42 · 371 阅读 · 0 评论 -
(71)--爬取拉勾网招聘信息
# 爬取拉勾网招聘信息from selenium import webdriverimport timefrom lxml import etreedc = { 'phantomjs.page.customHeaders.User-Agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTM...原创 2018-04-09 10:16:02 · 759 阅读 · 0 评论 -
(70)--爬取哦漫画图片并下载到相应文件夹
# 爬取哦漫画图片并下载到相应文件夹from selenium import webdriverimport timeimport requestsfrom bs4 import BeautifulSoupimport refrom urllib import request,parseimport os# 1.获取漫画章节链接phantom = webdriver.Phant...原创 2018-04-08 20:14:52 · 658 阅读 · 0 评论 -
(69)-- selenium的简单应用
# selenium的简单应用from selenium import webdriverimport timebrowser = webdriver.Chrome(executable_path=r'E:\Python\python爬虫\chromedriver.exe')base_url = 'http://www.baidu.com'browser.get(base_url)...原创 2018-04-08 16:56:06 · 214 阅读 · 0 评论 -
(79)--爬取网页信息
# 增加搜索功能import reimport urllib.requestimport jsondef InsertDict(D, key, value): D.setdefault(key) D[key] = valuedef GetHtml(url): response = urllib.request.urlopen(url) text = re...转载 2018-04-24 11:07:52 · 241 阅读 · 0 评论