爬虫
Scarlett·S
学海无涯,回头无岸
展开
-
爬虫中连接数据库,两种获取网页内容的方式,BeautifulSoup, 正则表达式的使用,爬json格式文件
一,连接数据库 1.连接MySQL import pymysql conn=pymysql.connect(host='localhost',port=3306,user='root',passwd='***',db='***', charset='utf8') cur = conn.cursor() # 以下两步把游标与数据库连接都关闭,这也是必须的! cur.close() co...原创 2019-07-29 15:42:10 · 599 阅读 · 0 评论 -
使用代理进行爬虫
爬网页的时候,尤其是一些商用网站,如果使用本地IP很容易就会被封掉,因此我们需要在代理网站上购买代理,我使用的是代理精灵网站:http://http.zhiliandaili.com/Users-login.html 首先要在IP白名单中加入自己的IP地址 然后点击API提取,稳定使用时长设置为稳定一分钟就好,然后点击下方的生成API链接就可以提取到一个API 下面我们来看...原创 2019-08-12 10:56:21 · 1053 阅读 · 0 评论 -
爬取网页源代码隐藏的那部分的数据,需要使用selenium+chromedriver.exe
selenium 是一套完整的web应用程序测试系统,可以模拟真实浏览器,自动化测试工具。 强大之处是 使用selenium是模拟真实用户对浏览器所做的界面输入,点击等等操作。所以能够无视各大网站的反爬虫机制!! chromedriver是谷歌Chrom推出的headless浏览器,无界面。 下面我们来安装一下chromedriver.exe,下载地址http://chromedriver....原创 2019-08-12 12:05:55 · 3217 阅读 · 0 评论 -
爬虫代码(TJ)
getip.py来自https://mp.csdn.net/postedit/99288836 import getip import re import cx_Oracle import urllib.request from bs4 import BeautifulSoup from selenium import webdriver from selenium.webdriver.ch...原创 2019-08-12 12:10:49 · 299 阅读 · 0 评论