数据采集与处理
数据采集与处理pycharm
白雨画桥
这个作者很懒,什么都没留下…
展开
-
scrapy-爬取豆瓣电影排行250
爬取文件 这里重点就是翻页了,我们可以发现相连的页面都有只改了一点且有连续性,依着规律可以for循环写出页面link的列表 start_urls = ['http://movie.douban.com/top250?start='+str(i*25) for i in range(10)] 下面可以写你要爬取的东西了 from doubanFilm.items import DoubanfilmItem class DoubanSpider(scrapy.Spider): name = 'doub原创 2020-05-10 18:16:35 · 1344 阅读 · 0 评论 -
scrapy爬取——mysql存储
我们这里爬取我爱我家http://fang.5i5j.com/bj/loupan/t17n用来做例子 MySQL建立一个数据库和需要的表格 DROP DATABASE IF EXISTS `cc`; /*``是键盘第二行最左边的键,不是单引号‘*/ CREATE DATABASE `cc` default character set=utf8; use `cc`; DROP table IF EXISTS Home; create table Home (Id int(4) PRIMARY KEY原创 2020-05-14 18:13:12 · 235 阅读 · 0 评论 -
QQ邮箱模拟登录(密码、头像、QQ邮箱爬取)
密码登录 from selenium import webdriver #导入webdriver from selenium.webdriver.chrome.options import Options #导入Options import time #导入time option = Options() option.add_argument("User-Agent='Mozilla/5.0 (W...原创 2020-04-21 22:53:32 · 1312 阅读 · 0 评论 -
怎样写和读配置一个文件config.ini
写配置一个config.ini文件 import configparser #导入configparser 加载现有配置文件 import shelve #导入shelve d=shelve.open("G:/im/config.ini") #创建文件config.ini 将对象保存到G:/im/目录下 cp = configparser.ConfigParser()# 写入配置文件 cp.ad...原创 2020-04-21 21:10:31 · 1294 阅读 · 0 评论 -
无界面浏览器模式selenium
无界面浏览器模式 无界面浏览器模式 方法一: from selenium.webdriver import Chrome #导入Chrome from selenium.webdriver.chrome.options import Options #导入Options opt = Options() opt.add_argument('--no-sandbox') # 解决 DevToolsAc...原创 2020-04-18 17:07:01 · 1301 阅读 · 1 评论