2018年10月_悦来客栈的老板

原创 Python3 使用pymysql库操作mysql

1.先安装好mysql及pymysql库。pip install pymysql2.连接mysql.In [1]: import pymysqlIn [2]: db = pymysql.connect(host = 'localhost',user = 'root',password = '123456', ...: port = 3306)In [3]: curs...

2018-10-19 15:36:55 3418 1

原创 Python3 黑板客爬虫闯关第三关

黑板客爬虫闯关第二关成功后的页面：http://www.heibanke.com/accounts/login/?next=/lesson/crawler_ex02/需要注册，注册后登陆：来到这个站点：http://www.heibanke.com/lesson/crawler_ex02/#coding=utf-8import requestsif __name__==...

2018-10-12 00:05:55 1772

原创 Python3 黑板客爬虫闯关第二关

#coding=utf-8import requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupdef getHtml(url,i): data = {"username":"admin", "password":i,} try: ...

2018-10-11 21:36:41 1716

原创 Python3 黑板客爬虫闯关第一关

#coding=utf-8import reimport requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupdef getHtml(url): try: headers = {'User-Agent': 'Mozilla/5.0 (Windo...

2018-10-11 21:26:16 1892

原创 Python3 三种办法解决split结果包含空字符串的问题

先看例子：In [1]: s = "abc,,,fefdaf,,,123fad,,fsdfa,,,"In [2]: s.split(',')Out[2]: ['abc', '', '', 'fefdaf', '', '', '123fad', '', 'fsdfa', '', '', '']输出的结果中会有很多的空字符串，有时候不想要这么空字符串，该怎么处理？方法一：列表...

2018-10-10 21:08:43 21349 1

原创 Python3 操作MongoDB数据库

以上一篇的数据为例子。In [1]: import pymongo #引入pymongo模块In [2]: client = pymongo.MongoClient(host = 'localhost',port = 27017) #进行连接In [3]: db = client.maoyan #指定数据库In [4]: collection = db.MaoyanI...

2018-10-07 09:19:03 5874 3

原创 Python3 Scrapy框架学习四：爬取的数据存入MongoDB

1. 新建一个scrapy项目：2.使用PyCharm打开该项目3.在settings.py文件中添加如下代码：#模拟浏览器，应对反爬USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.3...

2018-10-07 08:03:31 3201

原创 Python3 Scrapy框架学习二：爬取豆瓣电影Top250

打开项目里的items.py文件，定义如下变量，import scrapyfrom scrapy import Item,Fieldclass DoubanItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() movie = Field()...

2018-10-04 08:15:43 2253

原创 Python3 Scrapy框架学习一：爬取猫眼Top100榜

以下操作基于Windows平台。打开CMD命令提示框：输入如下命令：打开项目里的items.py文件，定义如下变量，用于存储。class MaoyanItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() movie = scrap...

2018-10-03 10:26:11 3240 1

原创 Python3 爬取Ajax加载的网页信息

url：http://www.kfc.com.cn/kfccda/storelist/index.aspx#coding=utf-8import reimport timeimport requestsfrom requests.exceptions import RequestExceptiondef getHtml(url,page): try: he...

2018-10-02 09:33:04 2515

原创 Python3 Ajax加载的网页爬取

url：今日头条，搜索“街拍”并打开https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D浏览器：firefox分析：打开页面，空白处单击鼠标右键，选择 ”查看元素”在下面弹出元素框内选择网络，并在右边的框内选择 XHR网页往下拉。。。。。直到元素框有数据出现。#coding=utf-8import r...

2018-10-02 08:53:34 2377

原创 Python3 css选择器实战(二)：爬取猫眼电影网

#coding=utf-8import reimport timeimport requestsfrom requests.exceptions import RequestExceptionfrom bs4 import BeautifulSoupfrom prettytable import PrettyTable def getHtml(url): try: ...

2018-10-01 16:07:44 2082

Python3 爬虫实战 1:应对特殊字体,爬取猫眼电影实时排行榜