spider
文章平均质量分 52
littlespider889
985非计算机硕士毕业
展开
-
小福利,带你使用scrapy框架爬取苏宁图书海量信息
大家好,我是天空之城,今天给大家带来小福利,带你使用scrapy框架爬取苏宁图书海量信息下图为项目的目录结构看下最后的数据截图,可以存为excel文件,也可以存入mysql数据库,参见前面文章介绍,下面是爬虫snb文件代码# -*- coding: utf-8 -*-import scrapyfrom copy import deepcopyimport reclass SnbSpider(scrapy.Spider): name = 'snb' allowed_do原创 2020-08-23 20:29:31 · 268 阅读 · 0 评论 -
小福利,用scrapy框架中的CrawlSpider类构建爬虫获取信息
大家好,我是天空之城,今天给大家带来小福利,用scrapy框架中的CrawlSpider类构建爬虫获取信息下面项目的目录结构图最后获取的数据截图首先是cyg爬虫文件里面的代码# -*- coding: utf-8 -*-import scrapyfrom scrapy.linkextractors import LinkExtractorfrom scrapy.spiders import CrawlSpider, Ruleimport re'''1.创建CrawlSpider 创建原创 2020-08-23 17:30:02 · 242 阅读 · 0 评论 -
小福利,带你使用scrapy框架爬取腾讯招聘信息保存为excel文件
大家好,我是天空之城,今天给大家带来小福利,带你使用scrapy框架爬取腾讯招聘信息。废话不说,直接上代码。项目总目录,如下图最后得到的excel文件截图爬虫文件hr代码# -*- coding: utf-8 -*-import scrapyimport json# from tencent.items import TencentItemfrom tencent.items import TencentItem# import requestsclass HrSpider(sc原创 2020-08-23 13:03:48 · 530 阅读 · 0 评论 -
小福利,带你使用scrapy框架爬取豆瓣电影数据存储到mysql数据库中和保存为excel表格
大家好,我是天空之城,今天给大家带来小福利,带你使用scrapy框架爬取电影数据存储到mysql数据库中。话不多说,直接上代码。下图是整个scrapy项目的目录结构图首先在中控台建立scrapy工程项目,scrapy startproject douban再创立爬虫 scrapy genspider db douban.com下面是spiders爬虫db.py目录下代码import scrapyimport scrapy, bs4#在Scrapy中,每个爬虫的代码结构基本都如下所示:原创 2020-08-22 22:11:59 · 1253 阅读 · 1 评论 -
高效爬虫,用executemany方法一次性插入MySQL多条数据(2),用字典格式保存数据并存入数据库
大家好,我是天空之城,今天给大家带来,用executemany方法一次性插入MySQL多条数据(2),用字典格式保存数据并存入数据库,注意executemany方法后面的%s写法,与上一篇不同。第一步建立表格。import pymysqlconn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='qwer123456', db='mydb', charset='utf8')cursor = conn.curso原创 2020-06-04 21:03:41 · 1151 阅读 · 0 评论 -
高效爬虫,用executemany方法一次性插入MySQL多条数据,带你体验飞一般的感觉
大家好,我是天空之城,今天给大家带来,用executemany()方法一次性插入MySQL多条数据,带你体验飞一般的感觉,注意括号里必须数据格式必须是元组的格式,字典格式好像也可以。第一步,建立表格。这两步可以合二为一。import pymysqlconn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='你的数据库密码', db='mydb', charset='utf8')cursor = conn.cur原创 2020-06-04 20:24:35 · 3069 阅读 · 0 评论 -
用python爬取top100电视剧存入mysql数据库
大家好,我是天空之城,今天给大家带来用python爬取时光网top100电视剧存入mysql数据库,注意这里有个if条件判断语句,因为有的简介是空值,所以这里加了一个判断。自己先建立表格。import pymysqlconn = pymysql.connect(host='127.0.0.1', port=3306, user='root', passwd='你的数据库密码', db='你的数据库名称', charset='utf8')cursor = conn.cursor()sql原创 2020-06-03 20:04:11 · 534 阅读 · 0 评论 -
小福利,用python教你打造自己的语音合成小程序,自己制作有声图书哦
大家好,我是天空之城,今天给大家带来小福利,借助百度ai,用python教你打造自己的文字识别转成语音的小程序,自己制作有声图书哦.首先需要大家先去百度ai主页注册一个账号,然后申请语音识别的接口,都是免费的,包括App_ID,API_Key,Secret_Key。打开网址‘https://ai.baidu.com/’,右上角有个控制台,进去之后,大家自己进行注册和申请,除了语音合成,还有图片识别,人脸识别,车牌识别,还有很多很多百度ai产品。还要在pycharm里面安装一个baidu-aip模块。#c原创 2020-06-03 00:01:12 · 2041 阅读 · 0 评论 -
用python的selenium模块自动爬取歌曲评论和登录豆瓣
大家好,我是天空之城,今天给大家带来用python的selenium模块自动爬取歌曲评论,最大程度避免被反爬。需要大家自己安装selenium模块以及安装webdriver驱动放到pychram文件夹里面。from selenium import webdriverimport timedriver=webdriver.Chrome()driver.get('https://y.qq.com/n/yqq/song/000xdZuV2LcQ19.html') # 访问页面time.sleep(原创 2020-06-02 21:36:49 · 497 阅读 · 1 评论 -
爬取歌曲信息分别保存为excel文件和存入MySQL数据库以及发送到你的邮箱中
大家好,我是天空之城,今天给大家带来,爬取歌曲信息分别保存为excel文件和MySQL数据库,此处周董可以替换为任意一位歌手,还可以将歌曲信息全部发送到你的邮箱中第一部分,爬取周董歌曲信息分别保存为excel文件import requests, openpyxlwb = openpyxl.Workbook()sheet = wb.activesheet.title = 'geci'sheet['A1'] = '歌曲名' # 加表头,给A1单元格赋值sheet['B1'] = '所属专原创 2020-06-01 19:55:24 · 1781 阅读 · 4 评论 -
用python爬取电影数据并保存进MySQL数据库
大家好,我是天空之城,今天给大家带来用python爬取电影数据并保存进MySQL数据库第一步,先进入MySQL建立数据库和建立存数据的表(在pychram中完成)import pymysqlconn=pymysql.connect(host='127.0.0.1',port=3306,user='root',passwd='你的数据库密码',db='你的数据名称',charset='utf8')cursor=conn.cursor()#建立存放电影数据的表doubanfilm6,名字自取s原创 2020-05-31 08:37:59 · 7606 阅读 · 2 评论 -
xpath爬取新闻增强版
大家好,我是天空之城,今天给大家带来xpath爬取新闻增强版import requestsimport lxmlfrom lxml import etreeimport smtplibfrom email.mime.text import MIMETextfrom email.header import Headerurl='http://news.baidu.com/'headers = { 'Referer': 'http://news.baidu.com/',原创 2020-05-30 10:06:17 · 609 阅读 · 3 评论 -
小福利,用python爬取新闻并发送到邮箱,每天都可以发送哦
大家好,我是天空之城。今天给大家带来小福利,用python爬取新闻并发送到邮箱,每天都可以发哦import requests,lxmlfrom bs4 import BeautifulSoupimport smtplibfrom email.mime.text import MIMETextfrom email.header import Headerurl='https://news.sina.com.cn/china/'headers = { 'Referer': 'h原创 2020-05-27 06:49:10 · 510 阅读 · 0 评论 -
课堂笔记-爬虫-selenium模块0
课堂笔记1. js2py简介1.1 js2py模块使用• Python中执行JS代码,通常两个库:js2py,pyexecjs• js2py是纯python实现的库,用于在python中运行js代码,本质上是将js代码翻译成python代码• js2py安装 pip install js2py1.2 快速入门import js2pyjs2py.eval_js('console.log("hello wrold")')func_js = """function add(a,b){原创 2020-05-27 05:20:55 · 155 阅读 · 0 评论 -
课堂笔记-爬虫-selenium模块
课堂笔记1. 定位元素• ind_element_by_id:根据id来查找某个元素submitTag = driver.find_element_by_id('su')submitTag1 = driver.find_element(By.ID,'su')• find_element_by_class_name:根据类名查找元素submitTag = driver.find_element_by_class_name('su')submitTag1 = driver.find_element原创 2020-05-27 05:12:04 · 191 阅读 · 0 评论 -
课堂笔记-爬虫模块简介
课堂笔记1. urllib.request模块1.1 版本python2 :urllib2、urllibpython3 :把urllib和urllib2合并,urllib.request1.2 常用的方法• urllib.request.urlopen(“网址”) 作用 :向网站发起一个请求并获取响应• 字节流 = response.read()• 字符串 = response.read().decode(“utf-8”)• urllib.request.Request"网址",head原创 2020-05-24 13:51:23 · 211 阅读 · 0 评论