python网络数据采集_晴天下雨下雪下冰雹的博客-CSDN博客

python网络数据采集

关注

关注数：文章数：24 文章阅读量：6825 文章收藏量：4

作者: 晴天下雨下雪下冰雹

这个作者很懒，什么都没留下…

展开

第七章7.1 数据清洗--将从网站上爬去的数据进行清洗然后转为2-grams序列输出

#!/usr/bin/env python# _*_ coding:utf-8 _*_import reimport stringfrom collections import OrderedDictfrom urllib.request import urlopenfrom bs4 import BeautifulSoupdef cleanInput(input): ...

原创 2018-11-03 09:29:18 · 210 阅读 · 0 评论
第十三章使用selenium单元测试进行元素拖放

import unittestfrom selenium import webdriverfrom selenium.webdriver import ActionChainsclass MyTestCase(unittest.TestCase): driver=None def setUp(self): global driver d...

原创 2018-11-07 22:29:26 · 97 阅读 · 0 评论
异常爬虫demo、 find函数和findAll函数以及正则表达式查找元素

代码位于书的第1-2章# from urllib.request import urlopen# from bs4 import BeautifulSoup# html = urlopen("http://pythonscraping.com/pages/page1.html")# # html.parser是Python的解析器的解析类型# bsObj = BeautifulSou...

原创 2018-11-02 21:42:48 · 417 阅读 · 0 评论
第3章全网采集

# import re# from urllib.request import urlopen# from bs4 import BeautifulSoup# import random# import datetime# random.seed(datetime.datetime.now())# def get_links(articleUrl):# html = url...

原创 2018-11-02 21:43:54 · 178 阅读 · 0 评论
第五章下载页面的所有src属性的文件p62

#!/usr/bin/env python# _*_ coding:utf-8 _*_import osfrom urllib.request import urlopen, urlretrievefrom bs4 import BeautifulSoupdownloadDirectory="downloaded"baseUrl="http://pyhtonscraping.co...

原创 2018-11-02 21:45:39 · 148 阅读 · 0 评论
第五章将数据存储到csv

#!/usr/bin/env python# _*_ coding:utf-8 _*_import csv# csvFile=open("../files/test.csv",'w+')# try:# writer= csv.writer(csvFile)# writer.writerow(('num','num plus 2','num times 3'))# ...

原创 2018-11-02 21:46:25 · 238 阅读 · 0 评论
第五章数据存储到mysql数据库

#!/usr/bin/env python# _*_ coding:utf-8 _*_# import pymysql# conn= pymysql.connect(host='127.0.0.1', user='root', passwd='root', db='mysql')# cur=conn.cursor()# cur.execute("use scraping")# cur...

原创 2018-11-02 21:47:07 · 170 阅读 · 0 评论
第六章读取纯文本文档

#!/usr/bin/env python# _*_ coding:utf-8 _*_from urllib.request import urlopentestPage=urlopen("http://www.pythonscraping.com/pages/warandpeace/chapter1.txt")#把字符串转变为utf-8编码print(str(testPage.rea...

原创 2018-11-02 21:47:53 · 131 阅读 · 0 评论
第六章读取csv文件

#!/usr/bin/env python# _*_ coding:utf-8 _*_import csvfrom io import StringIOfrom urllib.request import urlopendata=urlopen("http://pythonscraping.com/files/MontyPythonAlbums.csv").read().decode...

原创 2018-11-02 21:48:46 · 213 阅读 · 0 评论
第六章读取pdf文件

#!/usr/bin/env python# _*_ coding:utf-8 _*_from io import StringIOfrom urllib.request import urlopenfrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom pdfmine...

原创 2018-11-03 09:17:34 · 182 阅读 · 0 评论
Course 2 - 改善深层神经网络 - 第一周作业(1&2&3) - 1.3梯度校验

1.梯度检查用于判断求导数的结果是否正确1.1实现工具类# -*- coding: utf-8 -*-import numpy as npimport matplotlib.pyplot as pltdef sigmoid(x): """ Compute the sigmoid of x Arguments: x -- ...

原创 2019-03-28 09:30:57 · 322 阅读 · 0 评论
第十三章使用selenium单元测试--通过动作链或者动作序列完成网页加载测试等

#!/usr/bin/env python# _*_ coding:utf-8 _*_from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.keys import Keysdriver=webdriver.phantomjs(exe...

原创 2018-11-07 22:29:18 · 156 阅读 · 0 评论
第十三章用python爬虫测试网站-单元测试

#!/usr/bin/env python# _*_ coding:utf-8 _*_import unittestfrom urllib.parse import unquotefrom urllib.request import urlopenfrom bs4 import BeautifulSoupclass TestWikipedia(unittest.TestCase...

原创 2018-11-07 22:29:06 · 489 阅读 · 0 评论
第八章自然语言处理-概括数据-数据清洗加去掉常规词语

#!/usr/bin/env python# _*_ coding:utf-8 _*_import operatorimport reimport stringfrom collections import OrderedDictfrom urllib.request import urlopenfrom bs4 import BeautifulSoupdef cleanI...

原创 2018-11-03 09:31:01 · 782 阅读 · 0 评论
第八章马尔科夫链 -将演讲内容生成链长为100的markov组成的句子

#!/usr/bin/env python# _*_ coding:utf-8 _*_from random import randintfrom urllib.request import urlopendef wordListSum(wordList): sum=0 for word ,value in wordList.items(): sum+...

原创 2018-11-03 09:32:42 · 190 阅读 · 0 评论
第八章8.3自然语言处理-库的基本运用

#!/usr/bin/env python# _*_ coding:utf-8 _*_#下载nltk的data# import nltk# nltk.download()#创建text对象# from nlkt import word_tokenize# from nltk import Text# tokens=word_tokenize("here is some not ...

原创 2018-11-03 09:33:52 · 218 阅读 · 0 评论
第九章提交表单-使用request库提交表单、处理cookie等操作

#!/usr/bin/env python# _*_ coding:utf-8 _*_# 提交一个基本表单# import requests## params={'firstname':'Ryan','lastname':'Mitchell'}# r= requests.post("http://pythonscraping.com/files/processing.php", da...

原创 2018-11-03 09:42:01 · 418 阅读 · 0 评论
第十章采集javascript 使用selenium库进行获取

#!/usr/bin/env python# _*_ coding:utf-8 _*_# 等3秒获取指定的内容会有selenium不支持无头的phantomjs的警告# from selenium import webdriver# import time# driver=webdriver.PhantomJS(executable_path='D:/pycharm/phantomj...

原创 2018-11-03 09:43:09 · 114 阅读 · 0 评论
第十一章从网站图片中抓取文字

#!/usr/bin/env python# _*_ coding:utf-8 _*_#这一节是数144页从网站图片抓取文字的代码，#需要安装tesseract，它是开源的可以通过训练识别出字体的库import timefrom urllib.request import urlretrievefrom selenium import webdriver#创建新的selenium...

原创 2018-11-03 09:44:39 · 372 阅读 · 0 评论
第十一章获取验证码提交答案

#!/usr/bin/env python# _*_ coding:utf-8 _*_#此代码是书上151页获取验证码提交答案#需要安装pillow库进行图片的转换和像素的变化#需要安装tesseract进行图片文字的识别#这段代码的思路是：先打开需要验证码填写的网页，获取必要的信息，将验证码转换为字符串，#查看当前网页的提交的路径，然后将这些参数传递过去，判断是否成功即可fro...

原创 2018-11-03 09:45:32 · 485 阅读 · 0 评论
第十二章避开采集的陷阱使用selenium库处理cookie

#!/usr/bin/env python# _*_ coding:utf-8 _*_#根据cookie访问网站#思路：第一个webdriver获取网站和cookie，然后第二个web网站加载同一个网站（必须先加载，这样selenium才知道cookie属于哪个网站）#删除所有的cookie，替换成第一个的cookie，当再次加载页面的额时候应该两组的cookie时间戳、源代码、和其他信...

原创 2018-11-03 09:46:59 · 142 阅读 · 0 评论
第十二章避开采集的陷阱-通过request库修改请求头

#!/usr/bin/env python# _*_ coding:utf-8 _*_#修改请求头p156import requestsfrom bs4 import BeautifulSoupsession= requests.session()headers={ "User-Agent":"Moziall/5.0 (Macintosh;Intel Mac OS X 10...

原创 2018-11-07 22:28:34 · 140 阅读 · 0 评论
第十二章避开采集的陷阱-避免蜜罐

#!/usr/bin/env python# _*_ coding:utf-8 _*_#避免蜜罐from selenium import webdriverdriver=webdriver.phantomjs(executable_path='D:/pycharm/phantomjs-2.1.1-windows/bin/phantomjs')driver.get("http://py...

原创 2018-11-07 22:28:49 · 527 阅读 · 0 评论
Course 4 - 卷积神经网络 - 第四周作业 - 人脸识别与神经风格转换

参考网址：https://blog.csdn.net/u013733326/article/details/80767079#commentBoxhttps://blog.csdn.net/ljp1919/article/details/791126221.人脸验证和人脸识别1.1定义三元损失函数，之所以要定义三元损失函数，是因为它解决了一次学习的问题，如果没有他，则咱们需要训练的...

原创 2019-05-09 21:36:02 · 488 阅读 · 0 评论

python网络数据采集

作者: 晴天下雨下雪下冰雹

第七章7.1 数据清洗--将从网站上爬去的数据进行清洗然后转为2-grams序列输出

第十三章 使用selenium单元测试进行元素拖放

异常爬虫demo、 find函数和findAll函数 以及正则表达式查找元素

第3章 全网采集

第五章 下载页面的所有src属性的文件p62

第五章 将数据存储到csv

第五章 数据存储到mysql数据库

第六章 读取纯文本文档

第六章 读取csv文件

第六章 读取pdf文件

Course 2 - 改善深层神经网络 - 第一周作业(1&2&3) - 1.3梯度校验

第十三章 使用selenium单元测试--通过动作链或者动作序列完成网页加载测试等

第十三章 用python爬虫测试网站-单元测试

第八章 自然语言处理-概括数据-数据清洗加去掉常规词语

第八章 马尔科夫链 -将演讲内容生成链长为100的markov组成的句子

第八章8.3自然语言处理-库的基本运用

第九章 提交表单-使用request库提交表单、处理cookie等操作

第十章 采集javascript 使用selenium库进行获取

第十一章 从网站图片中抓取文字

第十一章 获取验证码提交答案

第十二章避开采集的陷阱 使用selenium库处理cookie

第十二章 避开采集的陷阱-通过request库修改请求头

第十二章 避开采集的陷阱-避免蜜罐

Course 4 - 卷积神经网络 - 第四周作业 - 人脸识别与神经风格转换

第十三章使用selenium单元测试进行元素拖放

异常爬虫demo、 find函数和findAll函数以及正则表达式查找元素

第3章全网采集

第五章下载页面的所有src属性的文件p62

第五章将数据存储到csv

第五章数据存储到mysql数据库

第六章读取纯文本文档

第六章读取csv文件

第六章读取pdf文件

第十三章使用selenium单元测试--通过动作链或者动作序列完成网页加载测试等

第十三章用python爬虫测试网站-单元测试

第八章自然语言处理-概括数据-数据清洗加去掉常规词语

第八章马尔科夫链 -将演讲内容生成链长为100的markov组成的句子

第九章提交表单-使用request库提交表单、处理cookie等操作

第十章采集javascript 使用selenium库进行获取

第十一章从网站图片中抓取文字

第十一章获取验证码提交答案

第十二章避开采集的陷阱使用selenium库处理cookie

第十二章避开采集的陷阱-通过request库修改请求头

第十二章避开采集的陷阱-避免蜜罐