python网络数据采集
晴天下雨下雪下冰雹
这个作者很懒,什么都没留下…
展开
-
第七章7.1 数据清洗--将从网站上爬去的数据进行清洗然后转为2-grams序列输出
#!/usr/bin/env python# _*_ coding:utf-8 _*_import reimport stringfrom collections import OrderedDictfrom urllib.request import urlopenfrom bs4 import BeautifulSoupdef cleanInput(input): ...原创 2018-11-03 09:29:18 · 210 阅读 · 0 评论 -
第十三章 使用selenium单元测试进行元素拖放
import unittestfrom selenium import webdriverfrom selenium.webdriver import ActionChainsclass MyTestCase(unittest.TestCase): driver=None def setUp(self): global driver d...原创 2018-11-07 22:29:26 · 97 阅读 · 0 评论 -
异常爬虫demo、 find函数和findAll函数 以及正则表达式查找元素
代码位于书的第1-2章# from urllib.request import urlopen# from bs4 import BeautifulSoup# html = urlopen("http://pythonscraping.com/pages/page1.html")# # html.parser是Python的解析器的解析类型# bsObj = BeautifulSou...原创 2018-11-02 21:42:48 · 417 阅读 · 0 评论 -
第3章 全网采集
# import re# from urllib.request import urlopen# from bs4 import BeautifulSoup# import random# import datetime# random.seed(datetime.datetime.now())# def get_links(articleUrl):# html = url...原创 2018-11-02 21:43:54 · 178 阅读 · 0 评论 -
第五章 下载页面的所有src属性的文件p62
#!/usr/bin/env python# _*_ coding:utf-8 _*_import osfrom urllib.request import urlopen, urlretrievefrom bs4 import BeautifulSoupdownloadDirectory="downloaded"baseUrl="http://pyhtonscraping.co...原创 2018-11-02 21:45:39 · 148 阅读 · 0 评论 -
第五章 将数据存储到csv
#!/usr/bin/env python# _*_ coding:utf-8 _*_import csv# csvFile=open("../files/test.csv",'w+')# try:# writer= csv.writer(csvFile)# writer.writerow(('num','num plus 2','num times 3'))# ...原创 2018-11-02 21:46:25 · 238 阅读 · 0 评论 -
第五章 数据存储到mysql数据库
#!/usr/bin/env python# _*_ coding:utf-8 _*_# import pymysql# conn= pymysql.connect(host='127.0.0.1', user='root', passwd='root', db='mysql')# cur=conn.cursor()# cur.execute("use scraping")# cur...原创 2018-11-02 21:47:07 · 170 阅读 · 0 评论 -
第六章 读取纯文本文档
#!/usr/bin/env python# _*_ coding:utf-8 _*_from urllib.request import urlopentestPage=urlopen("http://www.pythonscraping.com/pages/warandpeace/chapter1.txt")#把字符串转变为utf-8编码print(str(testPage.rea...原创 2018-11-02 21:47:53 · 131 阅读 · 0 评论 -
第六章 读取csv文件
#!/usr/bin/env python# _*_ coding:utf-8 _*_import csvfrom io import StringIOfrom urllib.request import urlopendata=urlopen("http://pythonscraping.com/files/MontyPythonAlbums.csv").read().decode...原创 2018-11-02 21:48:46 · 213 阅读 · 0 评论 -
第六章 读取pdf文件
#!/usr/bin/env python# _*_ coding:utf-8 _*_from io import StringIOfrom urllib.request import urlopenfrom pdfminer.converter import TextConverterfrom pdfminer.layout import LAParamsfrom pdfmine...原创 2018-11-03 09:17:34 · 182 阅读 · 0 评论 -
Course 2 - 改善深层神经网络 - 第一周作业(1&2&3) - 1.3梯度校验
1.梯度检查用于判断求导数的结果是否正确1.1实现工具类# -*- coding: utf-8 -*-import numpy as npimport matplotlib.pyplot as pltdef sigmoid(x): """ Compute the sigmoid of x Arguments: x -- ...原创 2019-03-28 09:30:57 · 322 阅读 · 0 评论 -
第十三章 使用selenium单元测试--通过动作链或者动作序列完成网页加载测试等
#!/usr/bin/env python# _*_ coding:utf-8 _*_from selenium import webdriverfrom selenium.webdriver import ActionChainsfrom selenium.webdriver.common.keys import Keysdriver=webdriver.phantomjs(exe...原创 2018-11-07 22:29:18 · 156 阅读 · 0 评论 -
第十三章 用python爬虫测试网站-单元测试
#!/usr/bin/env python# _*_ coding:utf-8 _*_import unittestfrom urllib.parse import unquotefrom urllib.request import urlopenfrom bs4 import BeautifulSoupclass TestWikipedia(unittest.TestCase...原创 2018-11-07 22:29:06 · 489 阅读 · 0 评论 -
第八章 自然语言处理-概括数据-数据清洗加去掉常规词语
#!/usr/bin/env python# _*_ coding:utf-8 _*_import operatorimport reimport stringfrom collections import OrderedDictfrom urllib.request import urlopenfrom bs4 import BeautifulSoupdef cleanI...原创 2018-11-03 09:31:01 · 782 阅读 · 0 评论 -
第八章 马尔科夫链 -将演讲内容生成链长为100的markov组成的句子
#!/usr/bin/env python# _*_ coding:utf-8 _*_from random import randintfrom urllib.request import urlopendef wordListSum(wordList): sum=0 for word ,value in wordList.items(): sum+...原创 2018-11-03 09:32:42 · 190 阅读 · 0 评论 -
第八章8.3自然语言处理-库的基本运用
#!/usr/bin/env python# _*_ coding:utf-8 _*_#下载nltk的data# import nltk# nltk.download()#创建text对象# from nlkt import word_tokenize# from nltk import Text# tokens=word_tokenize("here is some not ...原创 2018-11-03 09:33:52 · 218 阅读 · 0 评论 -
第九章 提交表单-使用request库提交表单、处理cookie等操作
#!/usr/bin/env python# _*_ coding:utf-8 _*_# 提交一个基本表单# import requests## params={'firstname':'Ryan','lastname':'Mitchell'}# r= requests.post("http://pythonscraping.com/files/processing.php", da...原创 2018-11-03 09:42:01 · 418 阅读 · 0 评论 -
第十章 采集javascript 使用selenium库进行获取
#!/usr/bin/env python# _*_ coding:utf-8 _*_# 等3秒获取指定的内容 会有selenium不支持无头的phantomjs的警告# from selenium import webdriver# import time# driver=webdriver.PhantomJS(executable_path='D:/pycharm/phantomj...原创 2018-11-03 09:43:09 · 114 阅读 · 0 评论 -
第十一章 从网站图片中抓取文字
#!/usr/bin/env python# _*_ coding:utf-8 _*_#这一节是数144页从网站图片抓取文字的代码,#需要安装tesseract,它是开源的可以通过训练识别出字体的库import timefrom urllib.request import urlretrievefrom selenium import webdriver#创建新的selenium...原创 2018-11-03 09:44:39 · 372 阅读 · 0 评论 -
第十一章 获取验证码提交答案
#!/usr/bin/env python# _*_ coding:utf-8 _*_#此代码是书上151页获取验证码提交答案#需要安装pillow库进行图片的转换和像素的变化#需要安装tesseract进行图片文字的识别#这段代码的思路是:先打开需要验证码填写的网页,获取必要的信息,将验证码转换为字符串,#查看当前网页的提交的路径,然后将这些参数传递过去,判断是否成功即可fro...原创 2018-11-03 09:45:32 · 485 阅读 · 0 评论 -
第十二章避开采集的陷阱 使用selenium库处理cookie
#!/usr/bin/env python# _*_ coding:utf-8 _*_#根据cookie访问网站#思路:第一个webdriver获取网站和cookie,然后第二个web网站加载同一个网站(必须先加载,这样selenium才知道cookie属于哪个网站)#删除所有的cookie,替换成第一个的cookie,当再次加载页面的额时候应该两组的cookie时间戳、源代码、和其他信...原创 2018-11-03 09:46:59 · 142 阅读 · 0 评论 -
第十二章 避开采集的陷阱-通过request库修改请求头
#!/usr/bin/env python# _*_ coding:utf-8 _*_#修改请求头p156import requestsfrom bs4 import BeautifulSoupsession= requests.session()headers={ "User-Agent":"Moziall/5.0 (Macintosh;Intel Mac OS X 10...原创 2018-11-07 22:28:34 · 140 阅读 · 0 评论 -
第十二章 避开采集的陷阱-避免蜜罐
#!/usr/bin/env python# _*_ coding:utf-8 _*_#避免蜜罐from selenium import webdriverdriver=webdriver.phantomjs(executable_path='D:/pycharm/phantomjs-2.1.1-windows/bin/phantomjs')driver.get("http://py...原创 2018-11-07 22:28:49 · 527 阅读 · 0 评论 -
Course 4 - 卷积神经网络 - 第四周作业 - 人脸识别与神经风格转换
参考网址:https://blog.csdn.net/u013733326/article/details/80767079#commentBoxhttps://blog.csdn.net/ljp1919/article/details/791126221.人脸验证和人脸识别1.1定义三元损失函数,之所以要定义三元损失函数,是因为它解决了一次学习的问题,如果没有他,则咱们需要训练的...原创 2019-05-09 21:36:02 · 488 阅读 · 0 评论