数据采集与处理
数据采集与处理pycharm
白雨画桥
这个作者很懒,什么都没留下…
展开
-
scrapy-爬取豆瓣电影排行250
爬取文件这里重点就是翻页了,我们可以发现相连的页面都有只改了一点且有连续性,依着规律可以for循环写出页面link的列表start_urls = ['http://movie.douban.com/top250?start='+str(i*25) for i in range(10)]下面可以写你要爬取的东西了from doubanFilm.items import DoubanfilmItemclass DoubanSpider(scrapy.Spider): name = 'doub原创 2020-05-10 18:16:35 · 1358 阅读 · 0 评论 -
scrapy爬取——mysql存储
我们这里爬取我爱我家http://fang.5i5j.com/bj/loupan/t17n用来做例子MySQL建立一个数据库和需要的表格DROP DATABASE IF EXISTS `cc`; /*``是键盘第二行最左边的键,不是单引号‘*/CREATE DATABASE `cc` default character set=utf8;use `cc`;DROP table IF EXISTS Home;create table Home(Id int(4) PRIMARY KEY原创 2020-05-14 18:13:12 · 242 阅读 · 0 评论 -
QQ邮箱模拟登录(密码、头像、QQ邮箱爬取)
密码登录from selenium import webdriver #导入webdriverfrom selenium.webdriver.chrome.options import Options #导入Optionsimport time #导入timeoption = Options()option.add_argument("User-Agent='Mozilla/5.0 (W...原创 2020-04-21 22:53:32 · 1324 阅读 · 0 评论 -
怎样写和读配置一个文件config.ini
写配置一个config.ini文件import configparser #导入configparser 加载现有配置文件import shelve #导入shelved=shelve.open("G:/im/config.ini") #创建文件config.ini 将对象保存到G:/im/目录下cp = configparser.ConfigParser()# 写入配置文件cp.ad...原创 2020-04-21 21:10:31 · 1315 阅读 · 0 评论 -
无界面浏览器模式selenium
无界面浏览器模式无界面浏览器模式方法一:from selenium.webdriver import Chrome #导入Chromefrom selenium.webdriver.chrome.options import Options #导入Optionsopt = Options()opt.add_argument('--no-sandbox') # 解决 DevToolsAc...原创 2020-04-18 17:07:01 · 1308 阅读 · 1 评论